
12个常用的图像数据增强技术总结
扩展用于训练模型的数据量的过程称为数据增强。通过训练具有多种数据类型的模型,我们可以获得更“泛化”的模型。

使用pandas-profiling对时间序列进行EDA
在这篇文章中,我将利用 pandas-profiling 的时间序列特性,介绍EDA中的一些关键步骤。

使用KNN进行分类和回归
一般情况下k-Nearest Neighbor (KNN)都是用来解决分类的问题,其实KNN是一种可以应用于数据分类和预测的简单算法,本文中我们将它与简单的线性回归进行比较。

比较CPU和GPU中的矩阵计算
GPU 计算与 CPU 相比能够快多少?在本文中,我将使用 Python 和 PyTorch 线性变换函数对其进行测试。

构建基于Transformer的推荐系统
使用基于BERT的模型构建基于协同过滤的推荐系统

谷歌AudioLM :通过歌曲片段生成后续的音乐
AudioLM 是 Google 的新模型,能够生成与提示风格相同的音乐。该模型还能够生成复杂的声音,例如钢琴音乐或人的对话。结果是它似乎与原版没有区别,这是十分让人惊讶的。

10个Pandas的小技巧
pandas是数据科学家必备的数据处理库,我们今天总结了10个在实际应用中肯定会用到的技巧

持续学习常用6种方法总结:使ML模型适应新数据的同时保持旧数据的性能
持续学习是指在不忘记从前面的任务中获得的知识的情况下,按顺序学习大量任务的模型。

训练深度学习神经网络的常用5个损失函数
损失函数的选择与神经网络模型从示例中学习的特定预测建模问题(例如分类或回归)有关。在本文中我们将介绍常用的一些损失函数

使用基于注意力的编码器-解码器实现医学图像描述
使用计算机视觉和自然语言处理来为X 射线的图像生成文本描述。

我们能从后验分布中学到什么?贝叶斯后验的频率解释
假设我们从未知分布 q 中观察到 N 个独立且同分布的 (iid) 样本 X = (x1, ... , xN)。统计学中的一个典型问题是“样本集 X 能告诉我们关于分布 q 的什么信息?”。

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading
标签传播算法是一种半监督机器学习算法,它将标签分配给以前未标记的数据点。要在机器学习中使用这种算法,只有一小部分示例具有标签或分类。在算法的建模、拟合和预测过程中,这些标签被传播到未标记的数据点。

数据科学家在使用Python时常犯的9个错误
最佳实践都是从错误中总结出来的,所以这里我们总结了一些遇到的最常见的错误,并提供了如何最好地解决这些错误的方法、想法和资源。

自注意力中的不同的掩码介绍以及他们是如何工作的?
注意力掩码本质上是一种阻止模型看我们不想让它看的信息的方法。这不是一种非常复杂的方法,但是它却非常有效。我希望这篇文章能让你更好地理解掩码在自注意力中的作用

时间序列平滑法中边缘数据的处理技术
金融市场的时间序列数据是出了名的杂乱,并且很难处理。这也是为什么人们都对金融数学领域如此有趣的部分原因!

2022年10个用于时间序列分析的Python库推荐
去年我们整理了一些用于处理时间序列数据的Python库,现在已经是2022年了,我们看看又有什么新的推荐

使用PyG进行图神经网络的节点分类、链路预测和异常检测
在这篇文章中,我们将回顾节点分类、链接预测和异常检测的相关知识和用Pytorch Geometric代码实现这三个算法。

带掩码的自编码器(MAE)最新的相关论文推荐
7-9月的MAE相关的9篇论文推荐

机器学习模型的集成方法总结:Bagging, Boosting, Stacking, Voting, Blending
集成学习是一种元方法,通过组合多个机器学习模型来产生一个优化的模型,从而提高模型的性能。集成学习可以很容易地减少过拟合,避免模型在训练时表现更好,而在测试时不能产生良好的结果。

在gpu上运行Pandas和sklearn
Pandas和sklearn这两个是我们最常用的基本库,Rapids将Pandas和sklearn的功能完整的平移到了GPU之上