Deephub

2022-02-15 11:09:01

特征工程：常用的特征转换方法总结

机器学习模型的生命周期可以分为以下步骤：

数据采集
数据预处理
特征工程
特征选择
建筑模型
超参数调整
模型部署

要构建模型就必须要对数据进行预处理。特征转换是这个过程中最重要的任务之一。在数据集中，大多数时候都会有不同大小的数据。为了使更好的预测，必须将不同的特征缩小到相同的幅度范围或某些特定的数据分布。

什么时候需要特征转换

在 K-Nearest-Neighbors、SVM 和 K-means 等基于距离的算法中，它们会给具有较大值的特征更多的权重，因为距离是用数据点的值计算的。如果我们提供算法未缩放的特征，预测将受到严重影响。在线性模型和基于梯度下降优化的算法中，特征缩放变得至关重要，因为如果我们输入不同大小的数据，将很难收敛到全局最小值。使用相同范围的值，算法学习的负担就会减轻。

什么时候不需要特征转换

大多数基于树型模型的集成方法不需要特征缩放，因为即使我们进行特征转换，对于熵的计算也不会发生太大变化。所以在这样的算法中，除非特别需要，一般情况下不需要缩放。

特征转换的方法

特征转换的方法有很多种，本文中将总结一些有用和流行的方法。

Standardization
Min — Max Scaling/ Normalization
Robust Scaler
Logarithmic Transformation
Reciprocal Transformation
Square Root Translation
Box Cox Transformation

Standardization 标准化

当输入数据集的特征在范围之间有很大差异或以不同的测量单位（如高度、重量、米、英里等）进行测量时，应使用标准化。我们将所有变量或特征带到相似的规模。其中均值为 0，标准差为 1。

在标准化中，我们用平均值减去特征值，然后除以标准差，得到完全标准的正态分布。

Min — Max Scaling / Normalization

简单来说，最小最大缩放将特征值缩小到 0 到 1 的范围。或者我们也可以指定缩放的范围。

对于Normalization（归一化）：会将特征值减去其最小值，然后除以特征范围（特征范围=特征最大值-特征最小值）。

Robust Scaler

如果数据集有太多异常值，则标准化和归一化都很难处理，在这种情况下，可以使用 Robust Scaler 进行特征缩放。

从名字就可以看出 Robust Scaler 对异常值很健壮😂。它使用中位数和四分位数范围来缩放值，因此它不会受到非常大或非常小的特征值的影响。Robust Scaler用其中值减去特征值，然后除以它的 IQR。

第 25 个百分位数 = 第1个四分位数
第 50 个百分位数 = 第 2 个四分位数（也称为中位数）
第 75 个百分位数 = 第 3 个四分位数
第 100 个百分位数 = 第 4 个四分位数（也称为最大值）
IQR=四分位间距
IQR= 第三四分位数 - 第一个四分位数

高斯转换

一些机器学习算法（如线性回归和逻辑回归）都假设我们提供给它们的数据是正态分布的。所以如果数据是正态分布的，则此类算法往往性能更好并提供更高的准确性，标准化偏态分布在这里变得很重要。

但是大多数时候数据会出现偏差，需要使用算法将其转换为高斯分布，并且在确定一种方法之前需要尝试几种方法，因为不同的数据集往往有不同的要求，我们无法适应一种方法所有的数据。

在本文中我们将仅使用来自泰坦尼克数据集来进行演示，下面绘制年龄直方图和 QQ 图。

下图是特征缩放之前的年龄特征

1、对数转换 Logarithmic Transformation

在对数转换中，我们将使用 NumPy 将 log 应用于所有特征值，并将其存储在新特征中。

从图中可以看到使用对数转换似乎不太适合这个数据集，它甚至会使数据偏斜，从而恶化分布。所以必须依靠其他方法来实现正态分布。

2、倒数转换 Reciprocal Transformation

在倒数转换中，我们将特征的每个值除以 1（倒数）并将其存储在新特征中。

很明显倒数转换也不适用于这些数据，它没有给出正态分布，而是使数据更加偏斜。

3、平方根转换 Square Root Translation

在平方根转换中，我们将特征计算平方根。使用 NumPy 可以方便的进行这种转换。

看样子似乎比倒数和对数转换更好的适应这个数据，但它是有点左倾斜。

4、Box Cox

Box Cox 转换是将数据分布转换为正态分布的最有效的转换技术之一。

Box-Cox 转换可以定义为：

T(Y)=(Y exp(λ)−1)/λ

其中 Y 是响应变量，λ 是转换参数。λ 从 -5 变化到 5。在转换中，考虑所有 λ 值并选择给定变量的最佳值。

我们可以使用 SciPy 模块中的stat来计算 box cox 转换。

到目前为止，box cox似乎是最适合年龄特征转换的方法。

总结

还有其他技术可以执行以获得高斯分布，但大多数时候以上的方法中的一种基本上就能满足数据集的要求。另外要说明的一点是，这些转换不仅仅适用于特征，对于回归来说我们还可以将其应用到目标中来获得更好的表现。

作者：Parth Gohil

标签：机器学习特征工程数据挖掘

发表评论

登录后发布评论

“特征工程：常用的特征转换方法总结”的评论:

还没有评论

关于作者

Deephub

更多文章请关注公众号：Deephub-IMBA

相关阅读

使用PyTorch实现GPT-2直接偏好优化训练：DPO方法改进及其与监督微调的效果对比

LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法

时间序列分析中的互相关与相干性分析：前导-滞后关系的理论基础与实际应用

基于深度混合架构的智能量化交易系统研究：融合SSDA与LSTM自编码器的特征提取与决策优化方法

基于Copula分布的合成数据采样：保持多维数据依赖结构的高效建模方法

数据分布检验利器：通过Q-Q图进行可视化分布诊断、异常检测与预处理优化

基于图神经网络的大语言模型检索增强生成框架研究：面向知识图谱推理的优化与扩展

文章导航