机器学习项目中特征工程的5个最佳实践
当处理一个新的机器学习问题时,没有办法从一开始就知道解决方案是什么,除非各种不同的实验被尝试和测试。以下总结了5个步骤希望对你有帮助。
半监督学习与PyTorch和SESEMI
半监督和自监督技术的世界是一个特别迷人的领域,因为它看起来几乎像魔术?事实上,这些技术比你想象的更容易理解
5个Python库可以帮你轻松的进行自然语言预处理
自然语言是指人类相互交流的语言,而自然语言处理是将数据以可理解的形式进行预处理,使计算机能够理解的一种方法。
谷歌MLP-Mixer:用于图像处理的全MLP架构
图像处理是机器学习中最有趣的子区域之一。MLP-Mixer无需使用任何卷积或任何自我注意层,但几乎可以达到SOTA结果,这是非常令人深思的。
决策树和机器学习算法的贝叶斯解释
决策树的常用方法是该贝叶斯模型的近似值。 该模型还包含一个初级集成方法的思想。 这样一来,让我们投入一些数学知识,并探讨贝叶斯定理的相关性。
特征选择中的哲学问题:多还是精
我们应该使用什么特征选择方法:精挑细选的还是详尽所有的?答案是“看情况”。
如何利用Transformer建立时间序列预测模型
在时间序列预测中,目标是预测给定历史值的时间序列的未来值。
Lasso 和 Ridge回归中的超参数调整技巧
在这篇文章中,我们将首先看看Lasso和Ridge回归中一些常见的错误,然后我将描述我通常采取的步骤来优化超参数。
4个提高jupiter Notebooks开发效率的工具
jupiter notebooks 在更广泛的编程社区中名声不佳。但是,当涉及到探索性数据分析和初始机器学习模型开发等任务时,jupiter notebooks 仍然是大多数数据科学家的首选。
GPT-3在招聘市场的应用案例介绍
介绍虽然GPT-3已经发布了很长一段时间,因为它在编写类似人类的故事和诗歌方面的卓越能力而受到广泛关注
基于Seq2Seq结构和注意力机制的神经机器翻译
神经机器翻译(NMT)是一种端到端自动翻译学习方法。它的优势在于它直接学习从输入文本到相关输出文本的映射。已被证明比传统的基于短语的机器翻译更有效
使用TabPy将时间序列预测与Tableau进行集成
在这篇文章中,我们将特别关注时间序列预测。我们将使用三个时间序列模型,它们是使用python建立的超级商店数
8个深度学习中常用的激活函数
激活函数,又称转换函数,是设计神经网络的关键。激活函数在某种意义上是重要的,因为它被用来确定神经网络的输出。
Autoviz:自动可视化任何数据集
AutoViz只需一行代码就可以自动显示任何数据集
用c++从头开始实现决策树
学习像c++这样的低级语言可以让你接触到许多快速程序所需的核心概念,在实践中,不太可能有很多数据科学家会使用c++来解决实验性的数据科学问题,但是从头实现一个分类决策树分类器似乎是一个适当的挑战。
如何漂亮打印Pandas DataFrames 和 Series
当我们必须处理可能有多个列和行的大型DataFrames时,能够以可读格式显示数据是很重要的。这在调试代码时非常有用。
用jax加速批量线性代数运算,最小的代码更改,显著的速度提升
在jax的优点中,我在这里关心的是它可以很容易地向量化(纯)函数,通过底层的并行化实现加速。因此,加速的代码可以在cpu、gpu和/或tpu上执行而无需修改!
ViLBERT:用于视觉和语言任务的预训练与任务无关的视觉语言表征
ViLBERT(Lu et al.2019)代表视觉与语言BERT。 听起来确实像是BERT模型的一个版本(Devlin等人,2018年),该模型很快就变成了NLP任务的SOTA,并集成了视觉输入。
使用Scikit-Learn的HalvingGridSearchCV进行更快的超参数调优
比较Halving Grid Search 和Exhaustive GridSearchCV
全面解释无监督机器学习中层次聚类(Hierarchical Clustering)
在本文中,我们将讨论无监督机器学习中的层次聚类算法。该算法基于嵌套簇的拆分和合并。根据距离度量使用自底向上的方法合并集群。