掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用

本文将通过使用feature-engine来简化这些特征的提取

使用LSH 进行特征提取

局部敏感哈希(LSH)通常用于近似最近邻算法(ANN) 操作(向量搜索)。LSH的特性也可以在以矢量为输入的神经网络模型中得到利用(例如,各种的音频、视频和文本嵌入等内容信号)。

Python-sklearn之PCA主成分分析

文章目录写在前面一、PCA主成分分析1、主成分分析步骤2、主成分分析的主要作二、Python使用PCA主成分分析写在前面作为大数据开发人员,我们经常会收到一些数据分析工程师给我们的指标,我们基于这些指标进行数据提取。其中数据分析工程师最主要的一个特征提取方式就是PCA主成分分析,下面我将介绍Pyth

时间序列特征提取的Python和Pandas代码示例

使用Pandas和Python从时间序列数据中提取有意义的特征,包括移动平均,自相关和傅里叶变换。

使用手工特征提升模型性能

本文将使用信用违约数据集介绍手工特征的概念和创建过程。

特征工程中的缩放和编码的方法总结

数据预处理是机器学习生命周期的非常重要的一个部分。特征工程又是数据预处理的一个重要组成,在本文中主要介绍特征缩放和特征编码的主要方法。

【Pyspark】常用数据分析基础操作

文章目录零、准备工作0.1 安装pyspark一、pyspark.sql部分1.窗口函数2.更换列名:3.sql将一个字段根据某个字符拆分成多个字段显示4.pd和spark的dataframe进行转换:5.报错ValueError: Some of types cannot be determine

时间序列统计特征的详细解析

 根据对已有时间序列比赛的统计研究,发现数据规模不大的比赛任务中,依然使用的是特征工程+梯度提升树模型。而且特征工程依然是重中之重。所以特意换了一些时间对特征工程进行了详细的总结。主要包括两大类,一类是常用的(大家都使用的)基本特征,还有一类是Top选手使用的高级特征。为了方便比赛选手学习,将其概念

Micro-Outlier Removal: 一种Kaggle快速提分的小技巧

Micro-Outlier Removal:这个词听起来不错。但是这个术语是本文的作者首创的。所以应该找不到其他相关的资料,但是看完本篇文章你就可以了解这个词的含义。

Pandas 对数值进行分箱操作的4种方法总结对比

使用 Pandas 的between 、cut、qcut 和 value_count离散化数值变量

特征选择:11 种特征选择策略总结

“特征选择”意味着可以保留一些特征并放弃其他一些特征。本文的目的是概述一些特征选择策略

使用分布外数据去除不需要的特征贡献,提高模型的稳健性

分布外数据增强训练可以提高 DNN 的准确性和效率,通过抗性训练可以让 DNN 更加健壮,让模型更不容易受到扰动的影响。

特征工程:基于梯度提升的模型的特征编码效果测试

树形结构为什么不需要归一化?使用独热编码和标签编码对模型的表现影响大吗?

Python-sklearn之PCA主成分分析

文章目录写在前面一、PCA主成分分析1、主成分分析步骤2、主成分分析的主要作二、Python使用PCA主成分分析写在前面作为大数据开发人员,我们经常会收到一些数据分析工程师给我们的指标,我们基于这些指标进行数据提取。其中数据分析工程师最主要的一个特征提取方式就是PCA主成分分析,下面我将介绍Pyth

深度特征合成与遗传特征生成,两种自动特征生成策略的比较

特征工程是从现有特征创建新特征的过程,本文中将通过一个示例比较两种自动特征生成的方法:DFS和GFG

特征工程:常用的特征转换方法总结

在数据集中,大多数时候都会有不同大小的数据。为了使更好的预测,必须将不同的特征缩小到相同的幅度范围或某些特定的数据分布。

使用时间特征使让机器学习模型更好地工作

在本文中,我将通过一个实际示例讨论如何从 DateTime 变量中提取新特征以提高机器学习模型的准确性。

特殊图像的色彩特征工程:非自然图像的颜色编码

在本文中,我们将探讨特征工程的不同方式(将原始颜色值进行展开)如何有助于提高卷积神经网络的分类性能。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈