人工智能机器学习 - overfit.cn

让机器学习 Pipeline 更稳的 5 个 Python 装饰器代码

下面介绍 5 个适合现代 AI 开发流程的 Python 装饰器。

Deephub 1 个月前 0 收藏

Feature Engineering 实战：Pandas + Scikit-learn的机器学习特征工程的完整代码示例

Feature engineering 是机器学习 pipeline 里最关键的一环。

Deephub 1 个月前 0 收藏

机器学习特征工程：缩放、编码、聚合、嵌入与自动化

好模型的秘诀不在于更花哨的算法，而在于更好的特征。

Deephub 2026-04-06 20:03:10 0 收藏

10个内置在 Pandas 中却常被忽略的向量化操作

本文整理了10个这样的写法，每个都附带常见的冗长版本作为对照。

Deephub 2026-04-01 21:21:22 0 收藏

10个内置在 Pandas 中却常被忽略的向量化操作

本文整理了10个这样的写法，每个都附带常见的冗长版本作为对照。

Deephub 2026-04-01 21:10:38 0 收藏

数值特征工程中的四种缩放方法：原理、适用场景与局限性

数值特征工程是机器学习模型训练中不可跳过的预处理环节。处理数值数据时需要面对两个核心问题：特征的量级差异和异常值。

Deephub 2026-03-22 21:04:23 0 收藏

9个提升Python代码生产质量的第三方库

这9个库覆盖了日常开发中几个反复出现的痛点：嵌套数据访问、标准库功能缺失、运行时类型安全、错误处理模式、时区陷阱、性能分析、测试断言、重试机制和数据管道。

Deephub 2026-03-21 20:24:14 0 收藏

基于网格搜索与分段回归的时间序列变化点检测方法

传统统计方法在时间序列分析中既简洁又有力，但面对大规模时间序列集合时，扩展性往往不尽如人意。现实中的趋势变化往往微弱、带有噪声、数量也不止一个，靠肉眼判断既不可靠也不现实。

Deephub 2026-03-11 20:49:20 0 收藏

Python标准库里藏着的7个代码简化利器

开始使用它们之后，项目体积缩小了，维护成本降低了，自动化也顺畅得多。以下是改变一切的七个技巧。

Deephub 2026-03-10 20:35:59 0 收藏

Energy Distance：度量两个多元分布差异的统计方法

Energy Distance 是一种基于度量的统计工具，适用于衡量两个多元分布的差异程度。

Deephub 2026-03-06 20:43:54 0 收藏

贝叶斯公式推导：从联合概率的对称性看条件反转

本文从简单概率的概念出发，逐步过渡到条件概率，最后介绍贝叶斯定理。整个过程会尽量保持直观，不涉及复杂的数学形式。

Deephub 2026-03-04 19:34:16 0 收藏

时间序列异常检测的5种方法：从统计阈值到深度学习

异常检测的核心不在于找出"奇怪的数字"，而在于理解每个时间点上什么才算正常。

Deephub 2026-02-27 21:11:26 0 收藏

机器学习特征工程：分类变量的数值化处理方法

实际操作中可以这样判断：特征有天然顺序就用 Ordinal Encoding；没有顺序、类别数量也不多就用 One-Hot Encoding；类别太多就上 Target Encoding，记得配合 Smoothing 和交叉验证。

Deephub 2026-02-07 21:20:28 0 收藏

分类数据 EDA 实战：如何发现隐藏的层次结构

这篇文章讲的是如何在 EDA 阶段把这些隐藏结构找出来，用实际的步骤、真实的案例，外加可以直接复用的 Python 代码。

Deephub 2026-02-05 22:47:55 0 收藏

pandas 3.0 内存调试指南：学会区分真假内存泄漏

在pandas 3.0 之后这类情况更多了，因为Copy-on-Write 改变了数据共享的方式，Arrow 支持的 dtype 让内存行为变得更难预测。

Deephub 2026-01-27 21:48:45 0 收藏

为什么标准化要用均值0和方差1？

为什么标准化要把均值设为0、方差设为1？

Deephub 2026-01-25 20:45:35 0 收藏

使用 tsfresh 和 AutoML 进行时间序列特征工程

本文将介绍多步时间序列预测的构建方式、auto-sklearn 如何扩展用于时间序列、tsfresh 的工作原理和使用方法

Deephub 2026-01-20 20:54:22 0 收藏

机器学习时间特征处理：循环编码（Cyclical Encoding）与其在预测模型中的应用

使用正弦和余弦进行循环编码，是一种优雅且低成本的修正手段。它保留了数据的邻近性，消除了人工伪影，能让模型学得更快、更准。

Deephub 2025-12-25 21:07:49 0 收藏

别再浪费内存了：Python slots 机制深入解析

`__slots__` 就是让你用灵活性换内存效率和更快的属性访问。对于高性能场景来说这是个必须掌握的优化手段。

Deephub 2025-12-22 22:15:16 0 收藏

Scikit-Learn 1.8引入 Array API，支持 PyTorch 与 CuPy 张量的原生 GPU 加速

Scikit-Learn 1.8.0 更新引入了实验性的 Array API 支持。这意味着 CuPy 数组或 PyTorch 张量现在可以直接在 Scikit-Learn 的部分组件中直接使用了

Deephub 2025-12-18 21:08:37 0 收藏

1
2
3
4
5

登录可以使用的更多功能哦！登录

OpenCV Python Pytorch Tensorflow 强化学习搜索和推荐数据分析数据挖掘机器学习概率论深度学习目标检测神经网络线性代数结构化数据自动驾驶自然语言处理计算机视觉语义分割语音识别

作者榜

资讯小助手

资讯同步

内容小助手

文章同步

Deephub

公众号：deephub-imba

奕凯

公众号：奕凯的技术栈