机器学习 - overfit.cn

标签噪声下的模型评估：如何准确评估AI模型的真实性能，提高模型性能测量的可信度

本文将深入探讨如何在考虑测试数据标签错误的前提下，估计模型的"真实"准确率，并分析标签噪声与模型性能评估之间的复杂关系。

Deephub 3 天前 0 收藏

时间序列异常检测：MSET-SPRT组合方法的原理和Python代码实现

MSET-SPRT框架通过上述两种技术的协同作用，为多元数据异常检测提供了准确且高效的解决方案，特别适用于高维度、高相关性的时间序列数据分析。

Deephub 9 天前 0 收藏

分位数回归+共形预测：Conformalized Quantile Regression实现更可靠的预测区间

本文将深入探讨CQR的理论基础、技术实现、与传统方法的比较，以及它在医疗、金融、能源和气候科学等多个领域的实际应用。

Deephub 11 天前 0 收藏

时间序列特征提取：18 种高效工具库及其应用分析

时间序列特征提取是数据科学工作流程中的关键环节，能够将原始时间序列数据转化为具有分析价值的特征表示。本文详细介绍 18 种专业的 Python 库

Deephub 22 天前 0 收藏

机器学习特征筛选：向后淘汰法原理与Python实现

向后淘汰法（Backward Elimination）是机器学习领域中一种重要的特征选择技术，其核心思想是通过系统性地移除对模型贡献较小的特征，以提高模型性能和可解释性。

Deephub 2025-03-03 09:47:55 0 收藏

趋势还是噪声？ADF与KPSS检验结果矛盾时的高级时间序列处理方法

当我们遇到ADF检验失败而KPSS检验通过的情况时，这表明我们面对的是一个平稳但具有确定性趋势的时间序列。

Deephub 2025-03-02 09:58:50 0 收藏

Featurewiz-Polars：基于XGBoost的高性能特征选择框架，一行代码搞定特征选择

，Featurewiz已成为许多数据科学家的首选工具，在学术领域获得**140多篇Google Scholar论文引用**。

Deephub 2025-02-27 10:15:14 0 收藏

用傅里叶变换解码时间序列：从频域视角解析季节性模式

传统上，识别季节性模式往往依赖于数据的**可视化分析**。但是我们可以使用**傅里叶变换**以及**周期图**（Periodogram）这一强大工具，用一种更系统的方法来解决这个问题。

Deephub 2025-02-10 09:48:00 0 收藏

数据降维技术研究：Karhunen-Loève展开与快速傅里叶变换的理论基础及应用

在现代科学计算和数据分析领域，数据降维与压缩技术对于处理高维数据具有重要意义。

Deephub 2025-02-04 20:38:02 0 收藏

哪些特征导致过拟合？使用ParShap 方法精准定位导致模型泛化能力下降的关键特征

当模型在训练数据上表现良好，但在测试数据上表现不佳时，即出现“**过拟合**”。这意味着模型从训练数据中学习了过多的噪声模式，从而丧失了在新数据上的泛化能力。

Deephub 2025-02-01 10:02:23 0 收藏

Python GIL（全局解释器锁）机制对多线程性能影响的深度分析

本文将主要基于CPython（用C语言实现的Python解释器，也是目前应用最广泛的Python解释器）展开讨论。

Deephub 2025-01-31 10:30:45 0 收藏

深入剖析SVM核心机制：铰链损失函数的原理与代码实现

铰链损失(Hinge Loss)是支持向量机(Support Vector Machine, SVM)中最为核心的损失函数之一。该损失函数不仅在SVM中发挥着关键作用，也被广泛应用于其他机器学习模型的训练过程中。

Deephub 2025-01-30 13:41:36 0 收藏

十大主流联邦学习框架：技术特性、架构分析与对比研究

联邦学习领域已发展出多个针对不同技术需求和应用场景的框架工具。这些工具在框架灵活性、使用便捷性和安全特性等方面各具特色。我们这里总结了10个联邦学习具有代表性框架

Deephub 2025-01-29 09:48:26 0 收藏

构建可靠的时间序列预测模型：数据泄露检测、前瞻性偏差消除与因果关系验证

在时间序列分析领域中，存在多种可能影响分析结果有效性的技术挑战。其中，数据泄露、前瞻性偏差和因果关系违反是最为常见且具有显著影响的问题。

Deephub 2025-01-28 09:44:43 0 收藏

知识蒸馏技术原理详解：从软标签到模型压缩的实现机制

**知识蒸馏**是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型（称为教师模型）中的知识迁移到规模较小的模型（称为学生模型）中。本文将深入探讨知识迁移的具体实现机制。

Deephub 2025-01-27 09:38:34 0 收藏

Python高性能编程：五种核心优化技术的原理与Python代码

在性能要求较高的应用场景中，Python常因其执行速度不及C、C++或Rust等编译型语言而受到质疑。然而通过合理运用Python标准库提供的优化特性，我们可以显著提升Python代码的执行效率。

Deephub 2025-01-26 09:33:51 0 收藏

时间序列平稳性的双重假设检验：KPSS与ADF方法比较研究

本文将详细介绍如何运用 **KPSS 检验**和 **Dickey-Fuller 检验**来验证序列的平稳性。这两种检验方法基于不同的统计假设：KPSS 检验的原假设是数据非平稳，而 Dickey-Fuller 检验则假设数据平稳。

Deephub 2025-01-22 10:47:26 0 收藏

金融波动率的多模型建模研究：GARCH族与HAR模型的Python实现与对比分析

本文着重探讨三种主流波动率建模方法：广义自回归条件异方差模型(GARCH)、Glosten-Jagannathan-Runkle-GARCH模型(GJR-GARCH)以及异质自回归模型(HAR)

Deephub 2025-01-21 09:54:45 0 收藏

时间序列分析中的状态估计：状态空间模型与卡尔曼滤波的隐状态估计

状态空间模型通过构建生成可观测数据的潜在未观测状态模型来进行时间序列分析。作为该方法论的核心，卡尔曼滤波为实时估计这些隐状态提供了一个理论完备的解决方案。本文深入探讨这些方法的理论基础和实践应用，阐述其在多领域的适用性。

Deephub 2025-01-20 10:52:53 0 收藏

提升数据科学工作流效率的10个Jupyter Notebook高级特性

本文将介绍一些高级功能，帮助您在数据科学项目中充分发挥Jupyter Notebooks的潜力。

Deephub 2025-01-18 16:36:05 0 收藏