为什么要停止过度使用置换重要性来寻找特征

数据分析师通常为了某些任务需要计算特征重要度。特征重要度可以帮助使用者了解数据中是否存在偏差或者模型中是否存

5个可以帮助pandas进行数据预处理的可视化图表

“一目了然胜过千言万语。”分析数据点的探索性数据分析(EDA)是在算法的数据建模之前制定假设的正确步骤。

交叉验证和超参数调整:如何优化你的机器学习模型

准确预测Fitbit的睡眠得分

详解DBSCAN聚类

使用DBSCAN标识为员工分组

机器学习入门:偏差和方差

偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。 方差(variance):方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况(或称之为离散情况)

Python中得可视化:使用Seaborn绘制常用图表

Seaborn是Python中的一个库,主要用于生成统计图形。

概率论和统计学中重要的分布函数

随机变量在概率空间中遵循不同类型的分布,这决定了它们的特征并有助于预测。

用Python编写代码分析《英雄联盟》游戏胜利的最重要因素

英雄联盟最重要的获胜条件是什么?

时间卷积网络TCN:时间序列处理的新模型

这篇文章回顾了基于TCN的解决方案的最新创新。我们首先介绍了一个运动检测的案例研究,并简要回顾了TCN架构

特征工程入门:应该保留和去掉那些特征

在特征/列上执行的任何能够帮助我们根据数据进行预测的操作都可以称为特征工程。这将包括以下内容:添加新功能去掉

5分钟入门GANS:原理解释和keras代码实现

生成式对抗网络(GANs)是由Ian Goodfellow (GANs的GAN Father)等人于2014年在其题为“生成式对抗网络”的论文中提出的。

使用ML 和 DNN 建模的技巧总结

每个人都可以轻松地将数据放入任何模型机器学习或深度学习框架中。但是遵循最佳实践技巧可能有助于提升工作效率。以

医学图像分割模型U-Net介绍和Kaggle的Top1解决方案源码解析

U-Net创建于2015年,是一款专为生物医学图像分割而开发的CNN

机器学习中的音频特征:理解Mel频谱图

这篇简短的文章能澄清一些困惑,并从头解释mel的光谱图。

你可能不知道的pandas的5个基本技巧

如何用pandas处理大数据学习“between”、“reindex”等功能。

Quickprop介绍:一个加速梯度下降的学习方法

Quickprop的方法之一是寻找特定领域的最佳学习率,或者更确切地说:适当地动态调整学习率的算法

PandaSQL:一个让你能够通过SQL语句进行pandas的操作的python包

这篇文章将介绍一种在pandas的dataframe中使用SQL的python包,并且使用一个不等链接的查询操作来介绍PandasSQL的使用方法。

推理(Inference)与预测(Prediction)

推理和预测这两个术语都描述了我们在监督下从数据中学习的任务,以便找到一个描述自变量和结果之间关系的模型

10种常用的图算法直观可视化解释

快速介绍10个基本的图算法举例和可视化

每个数据科学家都应该知道的20个NumPy操作

NumPy构成了数据科学领域中大部分Python库的基础。