深入理解多重共线性:基本原理、影响、检验与修正策略
本文将深入探讨多重共线性的本质,阐述其重要性,并提供有效处理多重共线性的方法,同时避免数据科学家常犯的陷阱。
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。
数据准备指南:10种基础特征工程方法的实战教程
特征工程是将原始数据转化为更具信息量的特征的过程。本文将详细介绍十种基础特征工程技术,包括其基本原理和实现示例。
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
特征工程通常涉及对现有数据应用转换,以生成或修改数据,这些转换后的数据在机器学习和数据科学的语境下用于训练模型,从而提高模型性能。
图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取
本文将介绍如何利用NetworkX在不同层面(节点、边和整体图)提取重要的图特征。
时间序列特征提取:从理论到Python代码实践
**时间序列**是一种特殊的存在。这意味着你对表格数据或图像进行的许多转换/操作/处理技术对于时间序列来说可能根本不起作用。
特征工程与数据预处理全解析:基础技术和代码示例
我们将深入研究处理异常值、缺失值、编码、特征缩放和特征提取的各种技术。
时间序列预测:探索性数据分析和特征工程的实用指南
我在本文中我们将EDA总结为六个步骤:描述性统计、时间图、季节图、箱形图、时间序列分解、滞后分析。
掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用
本文将通过使用feature-engine来简化这些特征的提取
使用LSH 进行特征提取
局部敏感哈希(LSH)通常用于近似最近邻算法(ANN) 操作(向量搜索)。LSH的特性也可以在以矢量为输入的神经网络模型中得到利用(例如,各种的音频、视频和文本嵌入等内容信号)。
Python-sklearn之PCA主成分分析
文章目录写在前面一、PCA主成分分析1、主成分分析步骤2、主成分分析的主要作二、Python使用PCA主成分分析写在前面作为大数据开发人员,我们经常会收到一些数据分析工程师给我们的指标,我们基于这些指标进行数据提取。其中数据分析工程师最主要的一个特征提取方式就是PCA主成分分析,下面我将介绍Pyth
时间序列特征提取的Python和Pandas代码示例
使用Pandas和Python从时间序列数据中提取有意义的特征,包括移动平均,自相关和傅里叶变换。
使用手工特征提升模型性能
本文将使用信用违约数据集介绍手工特征的概念和创建过程。
特征工程中的缩放和编码的方法总结
数据预处理是机器学习生命周期的非常重要的一个部分。特征工程又是数据预处理的一个重要组成,在本文中主要介绍特征缩放和特征编码的主要方法。
【Pyspark】常用数据分析基础操作
文章目录零、准备工作0.1 安装pyspark一、pyspark.sql部分1.窗口函数2.更换列名:3.sql将一个字段根据某个字符拆分成多个字段显示4.pd和spark的dataframe进行转换:5.报错ValueError: Some of types cannot be determine
时间序列统计特征的详细解析
根据对已有时间序列比赛的统计研究,发现数据规模不大的比赛任务中,依然使用的是特征工程+梯度提升树模型。而且特征工程依然是重中之重。所以特意换了一些时间对特征工程进行了详细的总结。主要包括两大类,一类是常用的(大家都使用的)基本特征,还有一类是Top选手使用的高级特征。为了方便比赛选手学习,将其概念
Micro-Outlier Removal: 一种Kaggle快速提分的小技巧
Micro-Outlier Removal:这个词听起来不错。但是这个术语是本文的作者首创的。所以应该找不到其他相关的资料,但是看完本篇文章你就可以了解这个词的含义。
Pandas 对数值进行分箱操作的4种方法总结对比
使用 Pandas 的between 、cut、qcut 和 value_count离散化数值变量
特征选择:11 种特征选择策略总结
“特征选择”意味着可以保留一些特征并放弃其他一些特征。本文的目的是概述一些特征选择策略
使用分布外数据去除不需要的特征贡献,提高模型的稳健性
分布外数据增强训练可以提高 DNN 的准确性和效率,通过抗性训练可以让 DNN 更加健壮,让模型更不容易受到扰动的影响。
- 1
- 2