机器学习 - overfit.cn

大数据-206 数据挖掘机器学习理论 - 多元线性回归回归算法实现算法评估指标

这里需要注意的是，当使用矩阵分解来求解多元线性回归方程时，必须添加一列全为 1 的列，用于表征线性方程截距W0。其中 m 为数据集样例个数，以及 RMSE 误差的均方根，为 MSE 开平方后所得结果。在回归分析中，SSR 表示聚类中类似的组间平方和概念，译为：Sum of squares of th

overfit同步小助手 13 天前 0 收藏

人工智能之机器学习

在1956年众多科学家相聚一起共同探讨并展望未来的科技.首次提出"人工智能"这个专业名词,这一年也被称为人工智能元年......

overfit同步小助手 14 天前 0 收藏

【AI论文精读5】知识图谱与LLM结合的路线图-P2

该论文提出了一个将大型语言模型（LLMs）与知识图谱（KGs）相结合的路线图。这是我对论文第2部分的解读。

overfit同步小助手 14 天前 0 收藏

【动物识别系统】Python+卷积神经网络算法+人工智能+深度学习+机器学习+计算机课设项目+Django网页界面

动物识别系统。本项目以Python作为主要编程语言，并基于TensorFlow搭建ResNet50卷积神经网络算法模型，通过收集4种常见的动物图像数据集（猫、狗、鸡、马）然后进行模型训练，得到一个识别精度较高的模型文件，然后保存为本地格式的H5格式文件。再基于Django开发Web网页端操作界面，实

overfit同步小助手 15 天前 0 收藏

CLIP中的logit_scale参数

这行代码定义并初始化了一个可训练的参数，用于在计算图像和文本特征的相似度时进行缩放。通过这种方式，模型可以在训练过程中调整相似度的动态范围，以便更好地学习图像和文本特征之间的匹配关系。

overfit同步小助手 15 天前 0 收藏

大数据-204 数据挖掘机器学习理论 - 混淆矩阵 sklearn 决策树算法评价

也就是说，单纯的追求捕捉少数类，就会成本太高，而不顾及少数类，又会无法达成模型的效果。比如银行在判断一个申请信用卡的客户是否会违约行为的时候，如果一个客户被判断为会违约，这个客户的信用卡申请就会驳回，如果为了捕捉会违约的人，大量地将不会违约的客户判断为会违约的客户，就会有许多无辜的客户的申请被驳回。

overfit同步小助手 15 天前 0 收藏

数据预处理：为 AI 准备 “优质食材” 的重要步骤

AI模型数据处理

overfit同步小助手 15 天前 0 收藏

大数据-201 数据挖掘机器学习理论 - 决策树局部最优剪枝分裂二叉分裂

而训练集、测试集和验证集的划分通常遵照 6:2:2 的比例进行划分，当然也可以根据实际需求适当调整划分比例，但无论如何，测试集和验证集数据量都不宜过多也不宜过少，该二者数据集数据均不参与建模，若占比太多，则会对模型的构建过程造成较大的影响（欠拟合），而若划分数据过少，训练集数据量较大，则又可能造成过

overfit同步小助手 15 天前 0 收藏

LocalAI离线安装部署

LocalAI是免费的开源 OpenAI 替代品。LocalAI 可作为替代 REST API，与 OpenAI（Elevenlabs、Anthropic……）API 规范兼容，用于本地 AI 推理。它允许您在本地或使用消费级硬件运行 LLM、生成图像、音频（不止于此），支持多种模型系列。不需要 G

overfit同步小助手 15 天前 0 收藏

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

**Liquid State Machine (LSM)** 是一种 **脉冲神经网络 (Spiking Neural Network, SNN)** ,在计算神经科学和机器学习领域中得到广泛应用,特别适用于处理 **时变或动态数据**。

Deephub 16 天前 1 收藏

大数据-203 数据挖掘机器学习理论 - 决策树 sklearn 剪枝参数样本不均匀问题

剪枝参数一定能够提升模型在测试集上的表现吗？调参是没有绝对的答案的，一切都需要看数据的本身。无论如何，剪枝参数的默认值会让树无尽的生长，这些树在某些数据集上可能非常巨大，对内存的消耗也非常巨大。属性是模型训练之后，能够调用查看的模型的各种性质，对决策树来说，最重要的是 feature_importa

overfit同步小助手 16 天前 0 收藏

大数据-195 数据挖掘机器学习理论 - 监督学习算法 KNN 近邻代码实现 Python

当然只对比一个样本是不够的，误差会很大，他们就需要找到离其最近的 K 个样本，并将这些样本称为【近邻】nearest neighbor，对这 K 个近邻，查看它们都属于任何类别（这些类别称为称为【标签】labels）。我们常说的欧拉公式，即“欧氏距离”，回忆一下，一个平面直角坐标系上，如何计算两点之

overfit同步小助手 17 天前 0 收藏

LLM Continue Pretrain（2024版）

deepseek的开源moe，也做得非常不错，应该是国内开源top了，他们的pretrain团队做得挺棒的但算法为主的，做pretrain，往往就是洗数据了。尴尬的点是，预训练洗数据，因为数据量大，往往都是搞各种小模型+规则，很难说明你做的事情的技术含量，只能体现你对数据的认知很好。语言类的dom

overfit同步小助手 17 天前 0 收藏

大数据-202 数据挖掘机器学习理论 - 决策树 sklearn 绘制决策树防止过拟合

在每次分支的时候，不使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分支用的节点。我们之前提过，无论决策树模型如何进化，在分支上的本质都还是追求某个不纯度相关的指标的优化，而正如我们提到的，不纯度是基于节点计算出来的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但

overfit同步小助手 17 天前 0 收藏

大数据-198 数据挖掘机器学习理论 - scikit-learn 归一化距离的惩罚

最近邻点距离远近修正在对未知分类过程中，一点一票的规则是 KNN 模型优化的一个重要步骤，也就是说，对于原始分类模型而言，在选取最近的 K 个元素之后，将参考这些点的所属类别，并对其进行简单计数，而在计数的过程中这些点一点一票，这些点每个点对分类目标点的分类过程中影响效力相同。但这实际上不公平的，就

overfit同步小助手 17 天前 0 收藏

深入理解多重共线性:基本原理、影响、检验与修正策略

本文将深入探讨多重共线性的本质,阐述其重要性,并提供有效处理多重共线性的方法,同时避免数据科学家常犯的陷阱。

Deephub 17 天前 0 收藏

AI 如何理解文字：Embedding解析

Embedding是一种将高维数据（如文字、图像等）映射到低维空间的技术。在自然语言处理中，embedding通常指的是将单词或短语转换成连续的向量表示。这些向量捕捉了词汇的语义信息，使得相似的词汇在向量空间中距离更近。Embedding是AI理解文字的关键技术之一。通过将高维的one-hot编码向

overfit同步小助手 17 天前 0 收藏

大数据-199 数据挖掘机器学习理论 - 决策树模型决策与条件香农熵计算

左图表示了特征空间的一个划分，假定现在只有 W10 和 W20 两个决策点，特征空间被决策点沿轴划分，并且相继划分相互正交，每个小矩形表示一个区域，特征空间上的区域构成了集合，X 取值为区域的集合。由于决策树表示一个条件概率的分布，所以深浅不同的决策树对应着不同的复杂度的概率模型，其中决策树的生成只

overfit同步小助手 18 天前 0 收藏

大数据-197 数据挖掘机器学习理论 - scikit-learn 泛化能力交叉验证

在业务中，我们训练数据往往都是以往已经有的历史数据，但我们的测试数据却是新进入系统的数据，我们追求模型的效果，但是追求的是模型在未知数据集上的效果，在陌生的数据集上表现的能力被称为泛化能力，即我们追求的是模型的泛化能力。通常来说，我们认为经过验证集找出最终参数后的模型的泛化能力是增强了的，因此模型在

overfit同步小助手 18 天前 0 收藏

告别传统办公软件，这款编辑器让你事半功倍！

ONLYOFFICE最近发布了文档8.2版本，带来了众多新特性和性能改进。作为一名用户和开发者，我对这些更新进行了深入的体验，感受到了不少亮点。新版本特别强调了协作功能，尤其是PDF文件的实时协同编辑，让我和团队成员能够更加高效地共同处理文档，避免了以往版本中反复发送邮件的问题。

overfit同步小助手 19 天前 0 收藏

大数据-206 数据挖掘机器学习理论 - 多元线性回归回归算法实现算法评估指标

人工智能之机器学习

【AI论文精读5】知识图谱与LLM结合的路线图-P2

【动物识别系统】Python+卷积神经网络算法+人工智能+深度学习+机器学习+计算机课设项目+Django网页界面

CLIP中的logit_scale参数

大数据-204 数据挖掘机器学习理论 - 混淆矩阵 sklearn 决策树算法评价

数据预处理：为 AI 准备 “优质食材” 的重要步骤

大数据-201 数据挖掘机器学习理论 - 决策树局部最优剪枝分裂二叉分裂

LocalAI离线安装部署

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

大数据-203 数据挖掘机器学习理论 - 决策树 sklearn 剪枝参数样本不均匀问题

大数据-195 数据挖掘机器学习理论 - 监督学习算法 KNN 近邻代码实现 Python

LLM Continue Pretrain（2024版）

大数据-202 数据挖掘机器学习理论 - 决策树 sklearn 绘制决策树防止过拟合

大数据-198 数据挖掘机器学习理论 - scikit-learn 归一化距离的惩罚

深入理解多重共线性:基本原理、影响、检验与修正策略

AI 如何理解文字：Embedding解析

大数据-199 数据挖掘机器学习理论 - 决策树模型决策与条件香农熵计算

大数据-197 数据挖掘机器学习理论 - scikit-learn 泛化能力交叉验证

告别传统办公软件，这款编辑器让你事半功倍！

作者榜

资讯小助手

内容小助手

Deephub

奕凯