奇异值分解(SVD)和np.linalg.svd()函数用法

奇异值分解是一种十分重要但又难以理解的矩阵处理技术,在机器学习中是最重要的分解没有之一的存在。那么,奇异值分解到底是在干什么呢?

数据挖掘(2.2)--数据预处理

描述数据的中心趋势、数据发散、数据清洗

一文速学-GBDT模型算法原理以及实现+Python项目实战

上篇文章内容已经将Adaboost模型算法原理以及实现详细讲述实践了一遍,但是只是将了Adaboost模型分类功能,还有回归模型没有展示,下一篇我将展示如何使用Adaboost模型进行回归算法训练。首先还是先回到梯度提升决策树GBDT算法模型上面来,GBDT模型衍生的模型在其他论文研究以及数学建模比

【数据挖掘实战】——应用系统负载分析与容量预测(ARIMA模型)

系统负载分析的传统方法:通过监控采集到的性能数据以及所发出的告警事件,人为进行判断系统的负载情况。实际业务中,监控系统会每天定时对磁盘的信息进行收集,但是磁盘容量属性一般情况下都是一个定值(不考虑中途扩容的情况),因此磁盘原始数据中会存在磁盘容量的重复数据。在不考虑人为因素的影响时,存储空间随时间变

数据挖掘(2.3)--数据预处理

三、数据集成和转换1.数据集成2.数据冗余性2.1 皮尔森相关系数2.2卡方检验3.数据转换

高斯混合模型 GMM 的详细解释

高斯混合模型(后面本文中将使用他的缩写 GMM)听起来很复杂,其实他的工作原理和 KMeans 非常相似,你甚至可以认为它是 KMeans 的概率版本。 这种概率特征使 GMM 可以应用于 KMeans 无法解决的许多复杂问题。

使用树状图可视化聚类

这篇文章中,我们介绍如何使用树状图(Dendrograms)对我们的聚类结果进行可视化。

10种基于MATLAB的方程组求解方法

直接发和迭代法,都有一定的适用范围,对应复杂的方程组,往往没法收敛,启发式算法,比如粒子群,可以自适应的对方程组的解进行求解,对复杂的方程组的求解精度一般更高,代码通用性更强,PSO是由Kennedy和Eberhart共同提出,最初用于模拟社会行为,作为鸟群或鱼群中有机体运动的形式化表示。

时间序列模型-ARIMA

主要介绍了ARIMA模型的基本概念和建模流程。

【机器学习之模型融合】Stacking堆叠法

Stacking堆叠法原理透析与应用

处理缺失值的三个层级的方法总结

缺失值是现实数据集中的常见问题,处理缺失值是数据预处理的关键步骤。本文将展示如何使用三种不同级别的方法处理这些缺失值

机器学习期末复习题

机器学习期末复习资料,答案已标注。

聚类算法(下):10个聚类算法的评价指标

上篇文章我们已经介绍了一些常见的聚类算法,下面我们将要介绍评估聚类算法的指标

使用Pandas也可以进行数据可视化

在本文中,我们介绍使用 Pandas 进行数据可视化的基础知识,包括创建简单图、自定义图以及使用多个DF进行绘图。

Numpy中数组和矩阵操作的数学函数

Numpy 是一个强大的 Python 计算库。它提供了广泛的数学函数,可以对数组和矩阵执行各种操作。本文中将整理一些基本和常用的数学操作。

R实战 | Nomogram(诺莫图/列线图)及其Calibration校准曲线绘制

R实战|Nomogram(诺莫图/列线图)及其Calibration校准曲线绘制Nomogram,中文常称为诺莫图或者列线图。简单的说是将Logistic回归或Cox回归的结果进行可视化呈...

Pandas的apply, map, transform介绍和性能测试

在这篇文章中,我们将通过一些示例讨论apply、agg、map和transform的预期用途。

不平衡数据集的建模的技巧和策略

在本文中,我们将讨论处理不平衡数据集和提高机器学习模型性能的各种技巧和策略

监控Python 内存使用情况和代码执行时间

我的代码的哪些部分运行时间最长、内存最多?我怎样才能找到需要改进的地方?”在本文中总结了一些方法来监控 Python 代码的时间和内存使用情况。