Micro-Outlier Removal: 一种Kaggle快速提分的小技巧
Micro-Outlier Removal:这个词听起来不错。但是这个术语是本文的作者首创的。所以应该找不到其他相关的资料,但是看完本篇文章你就可以了解这个词的含义。
Pandas 对数值进行分箱操作的4种方法总结对比
使用 Pandas 的between 、cut、qcut 和 value_count离散化数值变量
Python机器学习从入门到高级:带你玩转特征转换(含详细代码)
本文介绍如何使用python进行特征转换,建议收藏!!!本文介绍如何使用python进行特征转换,建议收藏!!!本文介绍如何使用python进行特征转换,建议收藏!!!
[KO机器学习] Day4 特征工程:如何有效地找到组合特征?
本文介绍一种基于决策树的特征组合寻找方法(关于决策树的详细内容过段时间为大家更新)。以点击预测问题为例,假设原始输入特征包含年龄、性别、用户类型(试用期、付费)、物品类型(护肤、食品等)4个方面的信息,并且根据原始输入和标签( 点击 / 未点击 )构造出了决策树,如下图所示。
机器学习系列7 基于Python的Scikit-learn库构建逻辑回归模型
🎄🎄本文中,你将学到逻辑回归的数学原理,使用Seaborn库可视化数据寻找数据间的相关性,并基于Scikit-learn库构建逻辑回归模型预测南瓜颜色。
[机器学习面试] Day3: 什么是组合特征?如何处理高维组合特征?
什么是组合特征?如何处理高维组合特征?难度:★★☆☆☆分析与解答:为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种离散特征。表1.2是语言和类型对点击的影响。为了提高拟合能力,语言和类型可以组成二阶特征,表1.3
机器学习入门-01快速学会使用Matplotlib绘图
快速学会使用Matplotlib绘图使用Matplotlib的基本功能实现图形显示使用Matplotlib实现多图显示使用Matplotlib实现不同画图种类1. Matplotlib之HelloWorld1.1 什么是MatplotlibMatplotlib 是 Python 的绘图库,它能让使用
1行代码完成可视化:Seaborn3个常用方法示例
只需一行 Seaborn 代码,我们就能够创建最常用的绘图并对其进行自定义,这是我们将在本文中重点介绍的内容。
连夜看了30多篇改进YOLO的中文核心期刊 我似乎发现了一个能发论文的规律
第1种:焕然一新的创新;比如Faster-RCNN、Yolov1、Transformer、ShuffleNet等,能……第2种:守正出奇的创新;比如将图像金字塔改进为特征金字塔……第3种:各种先进算法集成的创新,比如……
【机器学习】交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图
【机器学习】交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图一、使用背景由于在训练集上,通过调整参数设置使估计器的性能达到了最佳状态;但在测试集上可能会出现过拟合的情况。 此时,测试集上的信息反馈足以颠覆训练好的模型,评估的指标不再有效反映出模型的泛化性能。 为了解决此类问题,还应该准备
教你通过计算图看懂反向传播
看恩达老师的反向传播视频没有看很明白,于是搜寻发现了宝藏资源**《深度学习入门:基于Python的理论与实现》**,现将书中反向传播部分的内容截取出来供大家参考。图5-15练习答案:...
特征选择:11 种特征选择策略总结
“特征选择”意味着可以保留一些特征并放弃其他一些特征。本文的目的是概述一些特征选择策略
R语言使用levels()函数来查看factor因子变量水平级别(levels)
R语言使用levels()函数来查看factor因子变量水平级别(levels)
机器学习系列6 使用Scikit-learn构建回归模型:简单线性回归、多项式回归与多元线性回归
在本文中,我们以美国南瓜数据为例,讲解了三种线性回归的原理与使用方法,探寻数据之间的相关性,并构建了6种线性回归模型。将准确率从一开始的0.04提升到0.96.
R语言使用names函数为列表list中的所有数据对象设置名称、使用names函数查看列表中所有数据的名称
R语言使用names函数为列表list中的所有数据对象设置名称、使用names函数查看列表中所有数据的名称
pandas将多个Series对象合并起来形成dataframe、当索引不一致时会产生缺失值NaN
pandas将多个Series对象合并起来形成dataframe、当索引不一致时会产生缺失值NaN
Pandas 中最常用的 7 个时间戳处理函数
数据科学和机器学习中时间序列分析的有用概念
三、深度学习基础2(前、反向传播;超参数)
前向传播与反向传播前向传播反向传播神经网络的输出、卷积神经网络输出值以及Pooling 层输出值(主要作用是下采样)过程皆为比较简单的基础知识,在此不作详细赘述。超参数超参数:比如算法中的 learning rate (学习率)、iterations(梯度下降法循环的数量)、(隐藏层数目)、(隐藏层
机器学习实战 -朴素贝叶斯
贝叶斯分类算法是统计学的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种。所以称之为”朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是统计独立的。
【Spark】(task6)Spark RDD完成统计逻辑
文章目录一、Spark RDD二、使用RDD functions完成任务2的统计逻辑Reference一、Spark RDDRDD:resilient distributed dataset (RDD)每个spark程序都有一个driver program运行main函数,在cluster集群上执行