数据挖掘 - overfit.cn

大数据-205 数据挖掘机器学习理论 - 线性回归最小二乘法多元线性

在正式进入到回归分析的相关算法讨论之前，我们需要对监督学习算法中的回归问题进一步进行分析和理解。虽然回归问题同属于有监督的学习范畴，但实际上，回归问题要远比分类问题更加复杂。首先关于输出结果的对比，分类模型最终输出结果为离散变量，而离散变量本身包含信息量较少，其本身并不具备代数运算性质，因此其评价指

overfit同步小助手 2024-11-09 23:03:25 0 收藏

大数据-210 数据挖掘机器学习理论 - 逻辑回归 scikit-learn 实现 penalty solver

但随着C的逐渐变大，正则化的强度越来越小，模型在训练集和测试集上表现呈现了上升趋势，直到C=0.8左右，训练集上的表现依然走高，但模型在未知数据集上的表现就开始下跌，这时候就是出现了过拟合。正则化参数，LogisticRegression默认带了正则化项，penalty参数可选择的值有1和2，分别对

overfit同步小助手 2024-11-09 19:03:48 0 收藏

大数据-212 数据挖掘机器学习理论 - 无监督学习算法 KMeans 基本原理簇内误差平方和

大家可以发现，我们的 Intertia 是基于欧几里得距离的计算公式得来的。第六次迭代之后，基本上质心的位置就不会再改变了，生成的簇也变得稳定，此时我们的聚类就完成了，我们可以明显看出，K-Means 按照数据的分布，将数据聚集成了我们规定的 4 类，接下来我们就可以按照我们的业务求或者算法需求，对

overfit同步小助手 2024-11-09 17:03:47 0 收藏

大数据-207 数据挖掘机器学习理论 - 多重共线性矩阵满秩线性回归算法

这种高度相关关系下，矩阵的行列式不为 0，但是一个非常接近 0 数，矩阵 A 的逆存在，不过接近于无限大。矩阵 A 中第一行和第三行的关系，被称为：精确相关关系，即完全相关，一行可使另一行为 0，在这种精确相关关系下，矩阵 A 的行列式为 0，则矩阵 A 的逆不可能存在。相对的，矩阵 C 的行之间结

overfit同步小助手 2024-11-08 18:03:26 0 收藏

大数据-206 数据挖掘机器学习理论 - 多元线性回归回归算法实现算法评估指标

这里需要注意的是，当使用矩阵分解来求解多元线性回归方程时，必须添加一列全为 1 的列，用于表征线性方程截距W0。其中 m 为数据集样例个数，以及 RMSE 误差的均方根，为 MSE 开平方后所得结果。在回归分析中，SSR 表示聚类中类似的组间平方和概念，译为：Sum of squares of th

overfit同步小助手 2024-11-08 17:03:29 0 收藏

大数据-201 数据挖掘机器学习理论 - 决策树局部最优剪枝分裂二叉分裂

而训练集、测试集和验证集的划分通常遵照 6:2:2 的比例进行划分，当然也可以根据实际需求适当调整划分比例，但无论如何，测试集和验证集数据量都不宜过多也不宜过少，该二者数据集数据均不参与建模，若占比太多，则会对模型的构建过程造成较大的影响（欠拟合），而若划分数据过少，训练集数据量较大，则又可能造成过

overfit同步小助手 2024-11-06 14:03:38 0 收藏

第三章关键技术--数据仓库

量化交易系统

overfit同步小助手 2024-11-05 21:03:32 0 收藏

fastMNN|手把手教你理解和实现单细胞批次效应校正方法

fastMNN是MNN的升级版，主要改动是fastMNN采用PCA降维之后的低维空间计算细胞之间的距离，而MNN直接使用原始表达矩阵计算细胞之间的距离，因此分析速度会更快。MNN使用假设:（i）至少有一个细胞群同时存在于两个批次中,（ii）批次效应几乎与生物子空间正交,（iii）批次效应变化远小于不

overfit同步小助手 2024-11-05 16:01:41 0 收藏

大数据-203 数据挖掘机器学习理论 - 决策树 sklearn 剪枝参数样本不均匀问题

剪枝参数一定能够提升模型在测试集上的表现吗？调参是没有绝对的答案的，一切都需要看数据的本身。无论如何，剪枝参数的默认值会让树无尽的生长，这些树在某些数据集上可能非常巨大，对内存的消耗也非常巨大。属性是模型训练之后，能够调用查看的模型的各种性质，对决策树来说，最重要的是 feature_importa

overfit同步小助手 2024-11-05 09:03:30 0 收藏

【Python机器学习】模型评估与改进——二分类指标

二分类可能是实践中最常见的机器学习应用，也是概念最简单的应用。但是即使是评估这个简单的任务也仍有一些注意事项。对于二分类问题，我们通常会说正类和反类，而正类使我们要寻找的类。

overfit同步小助手 2024-11-05 05:03:37 0 收藏

指标预警设置的方法及流程

如果你有具体的业务场景或需要进一步的帮助，可以告诉我更详细的信息。：为每个指标设定预警阈值，这些阈值可以是固定的数值，也可以是基于历史数据计算出的动态阈值。：根据预警的效果和业务需求，不断调整阈值和预警策略，确保预警系统能够及时准确地反映业务情况。：确定如何通知相关人员，常见的方式包括邮件、短信、即

overfit同步小助手 2024-11-04 23:03:40 0 收藏

大数据-195 数据挖掘机器学习理论 - 监督学习算法 KNN 近邻代码实现 Python

当然只对比一个样本是不够的，误差会很大，他们就需要找到离其最近的 K 个样本，并将这些样本称为【近邻】nearest neighbor，对这 K 个近邻，查看它们都属于任何类别（这些类别称为称为【标签】labels）。我们常说的欧拉公式，即“欧氏距离”，回忆一下，一个平面直角坐标系上，如何计算两点之

overfit同步小助手 2024-11-04 19:03:14 0 收藏

大数据-202 数据挖掘机器学习理论 - 决策树 sklearn 绘制决策树防止过拟合

在每次分支的时候，不使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分支用的节点。我们之前提过，无论决策树模型如何进化，在分支上的本质都还是追求某个不纯度相关的指标的优化，而正如我们提到的，不纯度是基于节点计算出来的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但

overfit同步小助手 2024-11-04 14:03:33 0 收藏

大数据-198 数据挖掘机器学习理论 - scikit-learn 归一化距离的惩罚

最近邻点距离远近修正在对未知分类过程中，一点一票的规则是 KNN 模型优化的一个重要步骤，也就是说，对于原始分类模型而言，在选取最近的 K 个元素之后，将参考这些点的所属类别，并对其进行简单计数，而在计数的过程中这些点一点一票，这些点每个点对分类目标点的分类过程中影响效力相同。但这实际上不公平的，就

overfit同步小助手 2024-11-04 11:04:26 0 收藏

大数据-199 数据挖掘机器学习理论 - 决策树模型决策与条件香农熵计算

左图表示了特征空间的一个划分，假定现在只有 W10 和 W20 两个决策点，特征空间被决策点沿轴划分，并且相继划分相互正交，每个小矩形表示一个区域，特征空间上的区域构成了集合，X 取值为区域的集合。由于决策树表示一个条件概率的分布，所以深浅不同的决策树对应着不同的复杂度的概率模型，其中决策树的生成只

overfit同步小助手 2024-11-04 04:04:04 0 收藏

大数据-197 数据挖掘机器学习理论 - scikit-learn 泛化能力交叉验证

在业务中，我们训练数据往往都是以往已经有的历史数据，但我们的测试数据却是新进入系统的数据，我们追求模型的效果，但是追求的是模型在未知数据集上的效果，在陌生的数据集上表现的能力被称为泛化能力，即我们追求的是模型的泛化能力。通常来说，我们认为经过验证集找出最终参数后的模型的泛化能力是增强了的，因此模型在

overfit同步小助手 2024-11-04 00:03:44 0 收藏

大数据-196 数据挖掘机器学习理论 - scikit-learn 算法库实现案例1 红酒案例 2 乳腺癌

KNN 中的一个超参数，所谓“超参数”，就是需要人为输入，算法不能通过直接计算得出这个参数，KNN 中的 K 代表的是距离需要分类的测试点 X 最近的 K 个样本，如果不输入这个值，那么算法中重要部分“选出 K 个最近邻”就无法实现。如果选择的 K值较小，就相当于较小的领域中的训练实例进行预测，这时

overfit同步小助手 2024-11-02 22:03:29 0 收藏

大数据-200 数据挖掘机器学习理论 - 决策树数据集划分决策树生成 ID3 C4.5

而在信息熵指数的指导下，决策树生成过程的局部最优条件也非常好理解：即在选取属性测试条件（attribute test condition）对某节点（数据集）进行切分的时候，尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。同时我们知道，全局最优树没有办法简单高效的获得，因此此处我们仍然要以局

overfit同步小助手 2024-11-02 12:03:44 0 收藏

大数据-194 数据挖掘机器学习理论有监督、无监督、半监督、强化学习

从上图我们看出，对于复杂的数据，低阶多项式往往是欠拟合的状态，而高阶多项式则过分捕捉噪声数据的分布规律，而噪声数据之所以称为噪声，是因为其分布毫无规律可言，或者其分布毫无价值，因此就算高阶多项式在当前训练集上拟合度很高，但其捕捉到无用规律无法推广到新的数据集上，因此该模型在测试数据集上执行过程将会有

overfit同步小助手 2024-11-02 02:03:24 0 收藏

人工智能在病理切片虚拟染色及染色标准化领域的系统进展分析｜文献速递·24-07-07

这篇文章介绍了一个自动化的端到端深度学习框架，用于从未经染色的病理图像中进行分类和肿瘤定位。研究由Akram Bayat、Connor Anderson和Pratik Shah等人完成，并发表在2021年SPIE医学成像会议的图像处理卷中。背景与挑战：传统的组织病理学图像分析依赖于染色技术，但存在样

overfit同步小助手 2024-10-28 11:01:23 0 收藏