数据挖掘 - overfit.cn

大数据-196 数据挖掘机器学习理论 - scikit-learn 算法库实现案例1 红酒案例 2 乳腺癌

KNN 中的一个超参数，所谓“超参数”，就是需要人为输入，算法不能通过直接计算得出这个参数，KNN 中的 K 代表的是距离需要分类的测试点 X 最近的 K 个样本，如果不输入这个值，那么算法中重要部分“选出 K 个最近邻”就无法实现。如果选择的 K值较小，就相当于较小的领域中的训练实例进行预测，这时

overfit同步小助手 2024-11-02 22:03:29 0 收藏

大数据-200 数据挖掘机器学习理论 - 决策树数据集划分决策树生成 ID3 C4.5

而在信息熵指数的指导下，决策树生成过程的局部最优条件也非常好理解：即在选取属性测试条件（attribute test condition）对某节点（数据集）进行切分的时候，尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。同时我们知道，全局最优树没有办法简单高效的获得，因此此处我们仍然要以局

overfit同步小助手 2024-11-02 12:03:44 0 收藏

大数据-194 数据挖掘机器学习理论有监督、无监督、半监督、强化学习

从上图我们看出，对于复杂的数据，低阶多项式往往是欠拟合的状态，而高阶多项式则过分捕捉噪声数据的分布规律，而噪声数据之所以称为噪声，是因为其分布毫无规律可言，或者其分布毫无价值，因此就算高阶多项式在当前训练集上拟合度很高，但其捕捉到无用规律无法推广到新的数据集上，因此该模型在测试数据集上执行过程将会有

overfit同步小助手 2024-11-02 02:03:24 0 收藏

人工智能在病理切片虚拟染色及染色标准化领域的系统进展分析｜文献速递·24-07-07

这篇文章介绍了一个自动化的端到端深度学习框架，用于从未经染色的病理图像中进行分类和肿瘤定位。研究由Akram Bayat、Connor Anderson和Pratik Shah等人完成，并发表在2021年SPIE医学成像会议的图像处理卷中。背景与挑战：传统的组织病理学图像分析依赖于染色技术，但存在样

overfit同步小助手 2024-10-28 11:01:23 0 收藏

【大数据】数据分析之Spark框架介绍

Spark是一种快速、通用、可扩展的大数据分析引擎，它基于内存计算的大数据并行计算框架，能够显著提高大数据环境下数据处理的实时性，同时保证高容错性和高可伸缩性。上面的示例代码展示了如何使用 Java 编写 Spark 应用程序来处理不同类型的数据和任务。然而，由于 Spark 的广泛功能和 Java

overfit同步小助手 2024-10-28 10:03:47 0 收藏

机器学习实验报告——朴素贝叶斯

朴素贝叶斯模型的简单性和高效性使其成为许多实际问题的首选方法之一，尤其是在数据量大、特征独立性高或需要快速原型开发的场景中表现突出。

overfit同步小助手 2024-10-28 03:03:49 0 收藏

万字详解AI实践，零手写编码用AI完成开发 + 数据清洗 + 数据处理的每日新闻推荐，带你快速成为AI大神

全程不需要自己写一行代码，我们就完成了前后端开发和数据处理、数据清洗。实际上这也是未来的趋势，在AI的加持下，我们每一个人的能力都会被无限放大，早日尝试并习惯高效使用AI才能帮助我们在新时代的变革中保持竞争力。

overfit同步小助手 2024-10-25 13:01:19 0 收藏

Spring Cloud Gateway：构建强大的API网关

微服务架构是一种将应用构建为一组小型、自治服务的方法，每个服务都运行在其独立的进程中，服务间通过轻量级通信机制（通常是HTTP API）进行通信。这种架构模式能够提高系统的可扩展性、灵活性和可靠性。Spring Cloud Gateway是基于Spring Framework构建的API网关，提供了

overfit同步小助手 2024-10-23 12:02:05 0 收藏

基于大数据的亚健康人群数据可视化设计和实现

随着B/S结构的不断发展，使用的人也不断增加，从而带动了AJAX技术的发展，和B/S结构一样，它也能在客户端上处理程序，这便缓解了服务器的负担，提高了交互性，而且实现了局部实时刷新。另外在原本的Spring中由于随着项目的扩大导入的jar包数量越来越大，随之出现了jar包版本之间的兼容性问题，而此时

overfit同步小助手 2024-10-20 03:03:48 0 收藏

基于Spark 的零售交易数据挖掘分析与可视化

我们使用了 PySpark 来处理一个电商数据集，数据存储在 HDFS 上。通过 SQL 和 RDD 操作实现了多个业务需求分析，并最终将结果保存为 JSON 文件，用于前端展示。后端 Web 服务采用 Bottle 框架，提供静态文件服务和页面展示。

overfit同步小助手 2024-10-15 15:04:47 0 收藏

数据处理和分析之分类算法：XGBoost：数据隐私与安全在XGBoost中的考虑

XGBoost, 作为一种高效的机器学习算法，尤其在处理大规模数据集时表现出色，但在数据隐私保护方面存在一定的局限性。数据集中存储：XGBoost训练模型时，通常需要将数据集中存储在内存中，这可能导致敏感数据的泄露风险，尤其是在云环境或跨组织合作中。模型过拟合：虽然XGBoost通过正则化等手段防止

overfit同步小助手 2024-10-13 18:07:25 0 收藏

【笔记】Hive基础

Hive基础知识点，基本语法与操作

overfit同步小助手 2024-10-13 17:03:38 0 收藏

详解MySQL中MRR(多范围读取)如何优化范围查询

MRR，全称Multi-Range Read Optimization，直译为多范围读取优化，是MySQL中一种用于提高索引查询性能的技术。MRR通过减少随机磁盘访问次数，将随机IO转换为顺序IO，从而提高数据读取的效率。它特别适用于包含范围条件（如BETWEEN、等）的查询，以及需要通过辅助索引访

overfit同步小助手 2024-10-11 09:01:47 0 收藏

数据仓库和数据挖掘是数据处理和分析中的两个重要概念，它们在现代商业智能和决策支持系统中扮演着关键角色

确定哪些性能指标对你的数据仓库最为重要。常见的KPIs包括查询响应时间、吞吐量、资源利用率（CPU、内存、I/O）、并发用户数等。

overfit同步小助手 2024-10-09 09:04:06 0 收藏

人工智能时代，程序员如何保持核心竞争力？

人工智能时代，程序员保持核心竞争力的三大杀器

overfit同步小助手 2024-10-06 22:01:43 0 收藏

什么是大数据？一文讲清大数据的概念、演进、趋势、产业链及关键技术！

大数据这个词，不管您是不是相关行业的从业者，也都听过无数遍了，但对于大多数人来说，并不能清楚的讲出什么是大数据。今天小兵尝试通过通俗的语言，结合贴近生活的例子，将大数据及相关的概念一次讲清楚。

overfit同步小助手 2024-09-30 22:03:38 0 收藏

全新神经网络架构KAN回归分析：PDP(部分依赖图)、ICE(个体条件期望)解释教程

这里创建一个KAN：8D输入（自变量），1D输出（因变量），2个隐藏的神经元，三次样条 (k=3)，3个网格间隔 (grid=3)，读者可以利用网格细化来最大限度地提高 KAN 的拟合功能能力，修改网格间隔得到更细粒度的KAN，以及修改其它参数来增加模型拟合度，这里就不去展示如何去进行模型调参，接下

overfit同步小助手 2024-09-30 20:03:11 0 收藏

基于数据挖掘的航空客户满意度分析预测系统

航空公司致力于提供多样化的服务以满足乘客需求，包括但不限于提供免费无线网络、免费食物饮品、提供网上预约服务、飞机出口位置、座椅舒适度、卫生状况等，并希望以此提升乘客满意程度；此外，乘客满意度还受到乘客自身因素的影响。本系统利用数据挖掘、机器学习算法挖掘影响客户满意度的重要因素，最优模型的测试集预测准

overfit同步小助手 2024-09-30 05:05:07 0 收藏

IJCAI 2024 | 时空数据（Spatial-Temporal）论文总结

2024 IJCAI（International Joint Conference on Artificial Intelligence, 国际人工智能联合会议）在2024年8月3日-9日在举行。本文总结了IJCAI2024有关的相关论文，如有疏漏，欢迎大家补充。：时空（交通）预测，气象预测，轨迹

overfit同步小助手 2024-09-29 18:01:43 0 收藏

2024年值得收藏的AI数据分析工具

人工智能（AI）数据分析工具正变得越来越重要，通过自然语言处理、机器学习和高级数据可视化技术，使数据探索、分析和决策过程变得更加高效和直观。

overfit同步小助手 2024-09-29 13:01:33 0 收藏