使用🤗Transformers进行NLP的数据增广的4种常用方法

数据增广技术通过对数据进行扩充,加大训练的数据量来防止过拟合和使模型更健壮,帮助我们建立更好的模型。

Hint Learning和知识蒸馏

在这篇文章中,我简要介绍了知识蒸馏和Hint Learning。

时间序列的自回归理论和实现

​将回归应用于时间序列问题

图神经网络的表示方法和使用案例

在本文中,我将展示如何在分类、聚类和可视化等任务中使用简单的 GNN。

即席查询引擎对比:我为什么选择Presto

我们可以把OLAP分为两大类,即席查询就是其中的一类,另外一类可以被称作固化查询

数据科学面试中应该知道的5个SQL日期函数

在本文中,我们将深入探讨 SQL 中 5 个最重要和最有用的 DATE 函数以及一些可以使用它们的实际业务案例。

论文推荐:所有 GAN 的性能都一样吗?

生成对抗网络是一种能够从生成器和鉴别器之间的竞争中学习分布的框架。 通过足够的超参数搜索,几乎所有算法都有随机排名,甚至最新的的模型也也与 Ian Goodfellow 提出的原始 GAN 表现相似。

Auto-Sklearn:通过自动化加速模型开发周期

在本文中,我们研究了Auto-Sklearn如何使用元学习和贝叶斯优化来找到最优的模型管道并构建模型集成。

非线性降维方法 Isomap Embedding

Isomap Embedding 等距特征映射是一种新颖,高效的非线性降维技术,它的一个突出优点是只有两个参数需要设定,即邻域参数和嵌入维数.

使用pytorch和GTP2生成文章标题

标题选的好,绅士少不了

知识图谱指南:从理论到应用

知识图谱并不是一个全新的概念,早在 2006 年就有文献提出了语义网(Semantic Network)的概念

用随机游动生成时间序列的合成数据

随机游走是随机过程。 当没有可用信息或没有实时数据可用时,具有随机游走的合成数据可以近似实际数据。

9个value_counts()的小技巧,提高Pandas 数据分析效率

在本文中,我们将探讨 Pandas value_counts() 的不同用例。 我希望这篇文章能帮助你节省学习 Pandas 的时间。

机器学习是如何利用线性代数来解决数据问题的

为什么线性代数的基础知识如此重要

神经网络的多任务学习方法,避免灾难性遗忘

网络目前无法擅长一项以上的任务。你可以训练一个网络擅长某件事,但是一旦你试图教给网络其他东西,它就会忘记它在第一个任务中学到的东西。

如何阅读机器学习论文

我不会称自己为阅读论文的大师,但多年来通过反复的试验我有所进步。

机器学习中对抗性攻击的介绍和示例

​让我们攻击机器学习模型,让他把猫识别成柠檬。

机器学习中的数据级联:被低估的数据,被高估的模型

来自谷歌的研究员在一篇题为“Everyone wants to do the model work, not the data work”的论文中指出:数据质量在AI中起到的作用正在被低估,数据质量在高风险AI应用中十分重要

使用 TimeGAN 建模和生成时间序列数据

在本文中,我们将研究时间序列数据并探索一种生成合成时间序列数据的方法。

我总结了70篇论文的方法,帮你透彻理解神经网络的剪枝算法

神经网络剪枝是一种移除网络中性能良好但需要大量资源的多余部分的方法。