10个Pandas的小技巧
pandas是数据科学家必备的数据处理库,我们今天总结了10个在实际应用中肯定会用到的技巧
持续学习常用6种方法总结:使ML模型适应新数据的同时保持旧数据的性能
持续学习是指在不忘记从前面的任务中获得的知识的情况下,按顺序学习大量任务的模型。
训练深度学习神经网络的常用5个损失函数
损失函数的选择与神经网络模型从示例中学习的特定预测建模问题(例如分类或回归)有关。在本文中我们将介绍常用的一些损失函数
使用基于注意力的编码器-解码器实现医学图像描述
使用计算机视觉和自然语言处理来为X 射线的图像生成文本描述。
我们能从后验分布中学到什么?贝叶斯后验的频率解释
假设我们从未知分布 q 中观察到 N 个独立且同分布的 (iid) 样本 X = (x1, ... , xN)。统计学中的一个典型问题是“样本集 X 能告诉我们关于分布 q 的什么信息?”。
sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading
标签传播算法是一种半监督机器学习算法,它将标签分配给以前未标记的数据点。要在机器学习中使用这种算法,只有一小部分示例具有标签或分类。在算法的建模、拟合和预测过程中,这些标签被传播到未标记的数据点。
数据科学家在使用Python时常犯的9个错误
最佳实践都是从错误中总结出来的,所以这里我们总结了一些遇到的最常见的错误,并提供了如何最好地解决这些错误的方法、想法和资源。
自注意力中的不同的掩码介绍以及他们是如何工作的?
注意力掩码本质上是一种阻止模型看我们不想让它看的信息的方法。这不是一种非常复杂的方法,但是它却非常有效。我希望这篇文章能让你更好地理解掩码在自注意力中的作用
时间序列平滑法中边缘数据的处理技术
金融市场的时间序列数据是出了名的杂乱,并且很难处理。这也是为什么人们都对金融数学领域如此有趣的部分原因!
2022年10个用于时间序列分析的Python库推荐
去年我们整理了一些用于处理时间序列数据的Python库,现在已经是2022年了,我们看看又有什么新的推荐
使用PyG进行图神经网络的节点分类、链路预测和异常检测
在这篇文章中,我们将回顾节点分类、链接预测和异常检测的相关知识和用Pytorch Geometric代码实现这三个算法。
带掩码的自编码器(MAE)最新的相关论文推荐
7-9月的MAE相关的9篇论文推荐
机器学习模型的集成方法总结:Bagging, Boosting, Stacking, Voting, Blending
集成学习是一种元方法,通过组合多个机器学习模型来产生一个优化的模型,从而提高模型的性能。集成学习可以很容易地减少过拟合,避免模型在训练时表现更好,而在测试时不能产生良好的结果。
在gpu上运行Pandas和sklearn
Pandas和sklearn这两个是我们最常用的基本库,Rapids将Pandas和sklearn的功能完整的平移到了GPU之上
超长时间序列数据可视化的6个技巧
本文展示了6种用于绘制长时间序列数据的可视化方法,通过使用交互函数和改变视角,我可以使结果变得友好并且能够帮助我们更加关注重要的数据点。
生成模型VAE、GAN和基于流的模型详细对比
生成算法有很多,但属于深度生成模型类别的最流行的模型是变分自动编码器(VAE)、gan和基于流的模型。
Vision Transformer和MLP-Mixer联系和对比
本文的主要目标是说明MLP-Mixer和ViT实际上是一个模型类,尽管它们在表面上看起来不同。
贝叶斯回归:使用 PyMC3 实现贝叶斯回归
在这篇文章中,我们将介绍如何使用PyMC3包实现贝叶斯线性回归,并快速介绍它与普通线性回归的区别。