机器学习 - overfit.cn

机器学习特征工程：缩放、编码、聚合、嵌入与自动化

好模型的秘诀不在于更花哨的算法，而在于更好的特征。

Deephub 14 天前 0 收藏

10个内置在 Pandas 中却常被忽略的向量化操作

本文整理了10个这样的写法，每个都附带常见的冗长版本作为对照。

Deephub 19 天前 0 收藏

10个内置在 Pandas 中却常被忽略的向量化操作

本文整理了10个这样的写法，每个都附带常见的冗长版本作为对照。

Deephub 19 天前 0 收藏

数值特征工程中的四种缩放方法：原理、适用场景与局限性

数值特征工程是机器学习模型训练中不可跳过的预处理环节。处理数值数据时需要面对两个核心问题：特征的量级差异和异常值。

Deephub 1 个月前 0 收藏

9个提升Python代码生产质量的第三方库

这9个库覆盖了日常开发中几个反复出现的痛点：嵌套数据访问、标准库功能缺失、运行时类型安全、错误处理模式、时区陷阱、性能分析、测试断言、重试机制和数据管道。

Deephub 1 个月前 0 收藏

基于网格搜索与分段回归的时间序列变化点检测方法

传统统计方法在时间序列分析中既简洁又有力，但面对大规模时间序列集合时，扩展性往往不尽如人意。现实中的趋势变化往往微弱、带有噪声、数量也不止一个，靠肉眼判断既不可靠也不现实。

Deephub 2026-03-11 20:49:20 0 收藏

Python标准库里藏着的7个代码简化利器

开始使用它们之后，项目体积缩小了，维护成本降低了，自动化也顺畅得多。以下是改变一切的七个技巧。

Deephub 2026-03-10 20:35:59 0 收藏

Energy Distance：度量两个多元分布差异的统计方法

Energy Distance 是一种基于度量的统计工具，适用于衡量两个多元分布的差异程度。

Deephub 2026-03-06 20:43:54 0 收藏

贝叶斯公式推导：从联合概率的对称性看条件反转

本文从简单概率的概念出发，逐步过渡到条件概率，最后介绍贝叶斯定理。整个过程会尽量保持直观，不涉及复杂的数学形式。

Deephub 2026-03-04 19:34:16 0 收藏

时间序列异常检测的5种方法：从统计阈值到深度学习

异常检测的核心不在于找出"奇怪的数字"，而在于理解每个时间点上什么才算正常。

Deephub 2026-02-27 21:11:26 0 收藏

机器学习特征工程：分类变量的数值化处理方法

实际操作中可以这样判断：特征有天然顺序就用 Ordinal Encoding；没有顺序、类别数量也不多就用 One-Hot Encoding；类别太多就上 Target Encoding，记得配合 Smoothing 和交叉验证。

Deephub 2026-02-07 21:20:28 0 收藏

分类数据 EDA 实战：如何发现隐藏的层次结构

这篇文章讲的是如何在 EDA 阶段把这些隐藏结构找出来，用实际的步骤、真实的案例，外加可以直接复用的 Python 代码。

Deephub 2026-02-05 22:47:55 0 收藏

pandas 3.0 内存调试指南：学会区分真假内存泄漏

在pandas 3.0 之后这类情况更多了，因为Copy-on-Write 改变了数据共享的方式，Arrow 支持的 dtype 让内存行为变得更难预测。

Deephub 2026-01-27 21:48:45 0 收藏

为什么标准化要用均值0和方差1？

为什么标准化要把均值设为0、方差设为1？

Deephub 2026-01-25 20:45:35 0 收藏

使用 tsfresh 和 AutoML 进行时间序列特征工程

本文将介绍多步时间序列预测的构建方式、auto-sklearn 如何扩展用于时间序列、tsfresh 的工作原理和使用方法

Deephub 2026-01-20 20:54:22 0 收藏

机器学习时间特征处理：循环编码（Cyclical Encoding）与其在预测模型中的应用

使用正弦和余弦进行循环编码，是一种优雅且低成本的修正手段。它保留了数据的邻近性，消除了人工伪影，能让模型学得更快、更准。

Deephub 2025-12-25 21:07:49 0 收藏

别再浪费内存了：Python slots 机制深入解析

`__slots__` 就是让你用灵活性换内存效率和更快的属性访问。对于高性能场景来说这是个必须掌握的优化手段。

Deephub 2025-12-22 22:15:16 0 收藏

Scikit-Learn 1.8引入 Array API，支持 PyTorch 与 CuPy 张量的原生 GPU 加速

Scikit-Learn 1.8.0 更新引入了实验性的 Array API 支持。这意味着 CuPy 数组或 PyTorch 张量现在可以直接在 Scikit-Learn 的部分组件中直接使用了

Deephub 2025-12-18 21:08:37 0 收藏

PyCausalSim：基于模拟的因果发现的Python框架

今天介绍一下 **PyCausalSim**，这是一个利用模拟方法来挖掘和验证数据中因果关系的 Python 框架。

Deephub 2025-12-12 20:00:20 0 收藏

机器学习超参数调优：十个实用的贝叶斯优化（Bayesian Optimization）进阶技巧

Deephub 2025-12-11 20:44:16 0 收藏

机器学习特征工程：缩放、编码、聚合、嵌入与自动化

10个内置在 Pandas 中却常被忽略的向量化操作

10个内置在 Pandas 中却常被忽略的向量化操作

数值特征工程中的四种缩放方法：原理、适用场景与局限性

9个提升Python代码生产质量的第三方库

基于网格搜索与分段回归的时间序列变化点检测方法

Python标准库里藏着的7个代码简化利器

Energy Distance：度量两个多元分布差异的统计方法

贝叶斯公式推导：从联合概率的对称性看条件反转

时间序列异常检测的5种方法：从统计阈值到深度学习

机器学习特征工程：分类变量的数值化处理方法

分类数据 EDA 实战：如何发现隐藏的层次结构

pandas 3.0 内存调试指南：学会区分真假内存泄漏

为什么标准化要用均值0和方差1？

使用 tsfresh 和 AutoML 进行时间序列特征工程

机器学习时间特征处理：循环编码（Cyclical Encoding）与其在预测模型中的应用

别再浪费内存了：Python slots 机制深入解析

Scikit-Learn 1.8引入 Array API，支持 PyTorch 与 CuPy 张量的原生 GPU 加速

PyCausalSim：基于模拟的因果发现的Python框架

机器学习超参数调优：十个实用的贝叶斯优化（Bayesian Optimization）进阶技巧

作者榜

资讯小助手

内容小助手

Deephub

奕凯