大数据数据挖掘

【Python机器学习】模型评估与改进——二分类指标

二分类可能是实践中最常见的机器学习应用，也是概念最简单的应用。但是即使是评估这个简单的任务也仍有一些注意事项。对于二分类问题，我们通常会说正类和反类，而正类使我们要寻找的类。

overfit同步小助手 2024-11-05 05:03:37 0 收藏

指标预警设置的方法及流程

如果你有具体的业务场景或需要进一步的帮助，可以告诉我更详细的信息。：为每个指标设定预警阈值，这些阈值可以是固定的数值，也可以是基于历史数据计算出的动态阈值。：根据预警的效果和业务需求，不断调整阈值和预警策略，确保预警系统能够及时准确地反映业务情况。：确定如何通知相关人员，常见的方式包括邮件、短信、即

overfit同步小助手 2024-11-04 23:03:40 0 收藏

大数据-195 数据挖掘机器学习理论 - 监督学习算法 KNN 近邻代码实现 Python

当然只对比一个样本是不够的，误差会很大，他们就需要找到离其最近的 K 个样本，并将这些样本称为【近邻】nearest neighbor，对这 K 个近邻，查看它们都属于任何类别（这些类别称为称为【标签】labels）。我们常说的欧拉公式，即“欧氏距离”，回忆一下，一个平面直角坐标系上，如何计算两点之

overfit同步小助手 2024-11-04 19:03:14 0 收藏

大数据-202 数据挖掘机器学习理论 - 决策树 sklearn 绘制决策树防止过拟合

在每次分支的时候，不使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分支用的节点。我们之前提过，无论决策树模型如何进化，在分支上的本质都还是追求某个不纯度相关的指标的优化，而正如我们提到的，不纯度是基于节点计算出来的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但

overfit同步小助手 2024-11-04 14:03:33 0 收藏

大数据-198 数据挖掘机器学习理论 - scikit-learn 归一化距离的惩罚

最近邻点距离远近修正在对未知分类过程中，一点一票的规则是 KNN 模型优化的一个重要步骤，也就是说，对于原始分类模型而言，在选取最近的 K 个元素之后，将参考这些点的所属类别，并对其进行简单计数，而在计数的过程中这些点一点一票，这些点每个点对分类目标点的分类过程中影响效力相同。但这实际上不公平的，就

overfit同步小助手 2024-11-04 11:04:26 0 收藏

大数据-199 数据挖掘机器学习理论 - 决策树模型决策与条件香农熵计算

左图表示了特征空间的一个划分，假定现在只有 W10 和 W20 两个决策点，特征空间被决策点沿轴划分，并且相继划分相互正交，每个小矩形表示一个区域，特征空间上的区域构成了集合，X 取值为区域的集合。由于决策树表示一个条件概率的分布，所以深浅不同的决策树对应着不同的复杂度的概率模型，其中决策树的生成只

overfit同步小助手 2024-11-04 04:04:04 0 收藏

大数据-197 数据挖掘机器学习理论 - scikit-learn 泛化能力交叉验证

在业务中，我们训练数据往往都是以往已经有的历史数据，但我们的测试数据却是新进入系统的数据，我们追求模型的效果，但是追求的是模型在未知数据集上的效果，在陌生的数据集上表现的能力被称为泛化能力，即我们追求的是模型的泛化能力。通常来说，我们认为经过验证集找出最终参数后的模型的泛化能力是增强了的，因此模型在

overfit同步小助手 2024-11-04 00:03:44 0 收藏

大数据-196 数据挖掘机器学习理论 - scikit-learn 算法库实现案例1 红酒案例 2 乳腺癌

KNN 中的一个超参数，所谓“超参数”，就是需要人为输入，算法不能通过直接计算得出这个参数，KNN 中的 K 代表的是距离需要分类的测试点 X 最近的 K 个样本，如果不输入这个值，那么算法中重要部分“选出 K 个最近邻”就无法实现。如果选择的 K值较小，就相当于较小的领域中的训练实例进行预测，这时

overfit同步小助手 2024-11-02 22:03:29 0 收藏

大数据-200 数据挖掘机器学习理论 - 决策树数据集划分决策树生成 ID3 C4.5

而在信息熵指数的指导下，决策树生成过程的局部最优条件也非常好理解：即在选取属性测试条件（attribute test condition）对某节点（数据集）进行切分的时候，尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。同时我们知道，全局最优树没有办法简单高效的获得，因此此处我们仍然要以局

overfit同步小助手 2024-11-02 12:03:44 0 收藏

大数据-194 数据挖掘机器学习理论有监督、无监督、半监督、强化学习

从上图我们看出，对于复杂的数据，低阶多项式往往是欠拟合的状态，而高阶多项式则过分捕捉噪声数据的分布规律，而噪声数据之所以称为噪声，是因为其分布毫无规律可言，或者其分布毫无价值，因此就算高阶多项式在当前训练集上拟合度很高，但其捕捉到无用规律无法推广到新的数据集上，因此该模型在测试数据集上执行过程将会有

overfit同步小助手 2024-11-02 02:03:24 0 收藏

【大数据】数据分析之Spark框架介绍

Spark是一种快速、通用、可扩展的大数据分析引擎，它基于内存计算的大数据并行计算框架，能够显著提高大数据环境下数据处理的实时性，同时保证高容错性和高可伸缩性。上面的示例代码展示了如何使用 Java 编写 Spark 应用程序来处理不同类型的数据和任务。然而，由于 Spark 的广泛功能和 Java

overfit同步小助手 2024-10-28 10:03:47 0 收藏

机器学习实验报告——朴素贝叶斯

朴素贝叶斯模型的简单性和高效性使其成为许多实际问题的首选方法之一，尤其是在数据量大、特征独立性高或需要快速原型开发的场景中表现突出。

overfit同步小助手 2024-10-28 03:03:49 0 收藏

基于大数据的亚健康人群数据可视化设计和实现

随着B/S结构的不断发展，使用的人也不断增加，从而带动了AJAX技术的发展，和B/S结构一样，它也能在客户端上处理程序，这便缓解了服务器的负担，提高了交互性，而且实现了局部实时刷新。另外在原本的Spring中由于随着项目的扩大导入的jar包数量越来越大，随之出现了jar包版本之间的兼容性问题，而此时

overfit同步小助手 2024-10-20 03:03:48 0 收藏

基于Spark 的零售交易数据挖掘分析与可视化

我们使用了 PySpark 来处理一个电商数据集，数据存储在 HDFS 上。通过 SQL 和 RDD 操作实现了多个业务需求分析，并最终将结果保存为 JSON 文件，用于前端展示。后端 Web 服务采用 Bottle 框架，提供静态文件服务和页面展示。

overfit同步小助手 2024-10-15 15:04:47 0 收藏

【笔记】Hive基础

Hive基础知识点，基本语法与操作

overfit同步小助手 2024-10-13 17:03:38 0 收藏

数据仓库和数据挖掘是数据处理和分析中的两个重要概念，它们在现代商业智能和决策支持系统中扮演着关键角色

确定哪些性能指标对你的数据仓库最为重要。常见的KPIs包括查询响应时间、吞吐量、资源利用率（CPU、内存、I/O）、并发用户数等。

overfit同步小助手 2024-10-09 09:04:06 0 收藏

什么是大数据？一文讲清大数据的概念、演进、趋势、产业链及关键技术！

大数据这个词，不管您是不是相关行业的从业者，也都听过无数遍了，但对于大多数人来说，并不能清楚的讲出什么是大数据。今天小兵尝试通过通俗的语言，结合贴近生活的例子，将大数据及相关的概念一次讲清楚。

overfit同步小助手 2024-09-30 22:03:38 0 收藏

基于数据挖掘的航空客户满意度分析预测系统

航空公司致力于提供多样化的服务以满足乘客需求，包括但不限于提供免费无线网络、免费食物饮品、提供网上预约服务、飞机出口位置、座椅舒适度、卫生状况等，并希望以此提升乘客满意程度；此外，乘客满意度还受到乘客自身因素的影响。本系统利用数据挖掘、机器学习算法挖掘影响客户满意度的重要因素，最优模型的测试集预测准

overfit同步小助手 2024-09-30 05:05:07 0 收藏

【智能大数据分析 | 实验二】Spark实验：部署Spark集群

智能大数据分析实验二，Spark实验：部署Spark集群。理解Spark体系架构，学会部署Spark集群，能够配置Spark集群使用HDFS。最后在master上提交并运行Spark示例代码WordCount，上传至HDFS。

overfit同步小助手 2024-09-29 10:03:22 0 收藏

EI会议推荐-第二届大数据与数据挖掘国际会议（BDDM 2024）

序列处理与分析、网络挖掘、高性能数据挖掘算法、关联挖掘、基准和评估、交互式数据挖掘、数据挖掘就绪结构和预处理、数据挖掘可视化。大数据分析、人工智能、大数据网络技术、大数据搜索算法和系统、分布式和点对点搜索、基于大数据的机器学习、大数据可视化分析。数据挖掘基础、数据挖掘的挑战、并行和分布式数据挖掘算法

overfit同步小助手 2024-09-28 00:04:16 0 收藏