5个例子学会Pandas中的字符串过滤

要处理文本数据,需要比数字类型的数据更多的清理步骤。为了从文本数据中提取有用和信息,通常需要执行几个预处理和过滤步骤。

Clustering Coefficient

关于网络中聚类系数的计算——LCC和GCC的计算方法,GCC的计算方法涉及平均LCC和Transitivity两种,并比较了一下差异

机器学习之聚类——从教授的等式到凸聚类

机器学习之聚类——从教授的等式到凸聚类

你的模型是最好的还是最幸运的?选择最佳模型时如何避免随机性

对于数据科学家来说,知道模型选择中哪一部分是偶然发挥的作用是一项基本技能。在本文中,我们将说明如何量化选择最佳模型过程中涉及的随机性。

2022年8月的10篇论文推荐

10篇关于强化学习(RL)、缩放定律、信息检索、语言模型等的论文推荐

图文详解Logistic回归原理(两种优化)+Python实现

Logistic回归本质上是在线性回归基础上,将预测值映射到概率区间内的分类学习方法。本文图文详解Logistic回归算法原理+手推公式,附Python代码实战加深理解

机器学习_LGB调参汇总(开箱即食)

在数据层面的一些正负采样,业务层面一些数据筛选,以及异常值的处理后。我们进行模型训练,同时需要对模型进行参数的调整,以提升模型的精度。笔者就一些现有的调参框架进行汇总。

【机器学习】网络爬虫实战详解

【机器学习】网络爬虫实战详解,基于百度飞桨开发,参考于《机器学习实践》所作。

【机器学习】Python常见用法汇总

【机器学习】Python常见用法汇总,基于百度飞桨开发,参考于《机器学习实践》所作。

7个步骤详解AdaBoost 算法原理和构建流程

AdaBoost 是集成学习中的一个常见的算法,它模仿“群体智慧”的原理:将单独表现不佳的模型组合起来可以形成一个强大的模型。

【深度学习】笔记2-模型在测试集的准确率大于训练集

在模型训练过程中突然发现,模型的准确率在测试集上居然比在训练集上还要高。但是我们知道,我们训练模型的方式就是在训练集上最小化损失。因此,模型在训练集上有着更好的表现,才应该是正常的现象。那么,是什么导致了在测试集上准确率更高的现象呢?......

sklearn实现一元线性回归 【Python机器学习系列(五)】

sklearn实现一元线性回归 【Python机器学习系列(五)】

【机器学习】数据科学基础——机器学习基础实践(一)

【机器学习】数据科学基础——机器学习基础实践,基于百度飞桨开发,参考于《机器学习实践》所作。

10个自动EDA库功能介绍:几行代码进行的数据分析靠不靠谱

在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。

如何科学预测后代的身高

否者环境的效应为负,那就达不到理论身高了,误差是负的。如果成千上万的亲子身高数据,我们就可以观测到回归的现象,就是高尔顿所观测到的高的父母,后代会低于父母的平均值,低的父母,会高于父母的平均值。对于第二个,这是随机的,但是可以通过基因分型检测出来孟德尔抽样,也就是在孩子小的时候就可以检测出来像父亲还

【机器学习】数据科学基础——神经网络基础实验

【机器学习】数据科学基础——神经网络基础实验,基于百度飞桨开发,参考于《机器学习实践》所作。

【机器学习】21天挑战赛学习笔记(二)

1.什么是聚类学习聚类一直是机器学习、数据挖掘、模式识别等领域的重要组成内容。聚类是在无标记样本的条件下将数据分组,他通常被用于以下三个方面:🌈发现数据的潜在结构🌈对数据进行自然分组🌈对数据进行压缩这几个方面的功能使聚类既可以作为预处理程序,又可以作为独立的分析工具。2.聚类的描述数据聚类(聚

8个常见的机器学习算法的计算复杂度总结

计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。

在表格数据集上训练变分自编码器 (VAE)示例

变分自编码器 (VAE) 是在图像数据应用中被提出,但VAE不仅可以应用在图像中。在这篇文章中,我们将简单介绍什么是VAE,以及解释“为什么”变分自编码器是可以应用在数值类型的数据上,最后使用Numerai数据集展示“如何”训练它。

机器学习强基计划1-1:图文详解感知机算法原理+Python实现

感知机是最简单的二分类线性模型,也是神经网络的起源算法。本文图文详解感知机算法原理+手推公式,附Python代码实战加深理解