CatBoost, XGBoost, AdaBoost, LightBoost,各种Boost的介绍和对比

本文包含了不同的增强方法,从不同的角度解释了这些方法并进行了简单的测试

强化学习算法三个基线策略

本文中概述的三个策略非常容易实现,可以作为完备性检查,并在出现问题时立即告诉你。

如何编写便于团队阅读和维护的SQL语句

团队中的每个人都可能有自己编写SQL的习惯,如果没有一套规范我们所编写的SQL语句肯定会令人别人难以阅读,所以一套良好SQL编码规范是十分重要的。

比较两幅图像的相似度的各种相似度量结果对比

在本文中,我们将看到如何使用一行代码实现各种相似性度量,并对比各相似度的评分

用于图神经网络研究的几个实用的数据集

本文将为ML/DL图网络的研究提供一些实用的数据集

使用🤗Transformers进行NLP的数据增广的4种常用方法

数据增广技术通过对数据进行扩充,加大训练的数据量来防止过拟合和使模型更健壮,帮助我们建立更好的模型。

Hint Learning和知识蒸馏

在这篇文章中,我简要介绍了知识蒸馏和Hint Learning。

时间序列的自回归理论和实现

​将回归应用于时间序列问题

图神经网络的表示方法和使用案例

在本文中,我将展示如何在分类、聚类和可视化等任务中使用简单的 GNN。

即席查询引擎对比:我为什么选择Presto

我们可以把OLAP分为两大类,即席查询就是其中的一类,另外一类可以被称作固化查询

数据科学面试中应该知道的5个SQL日期函数

在本文中,我们将深入探讨 SQL 中 5 个最重要和最有用的 DATE 函数以及一些可以使用它们的实际业务案例。

论文推荐:所有 GAN 的性能都一样吗?

生成对抗网络是一种能够从生成器和鉴别器之间的竞争中学习分布的框架。 通过足够的超参数搜索,几乎所有算法都有随机排名,甚至最新的的模型也也与 Ian Goodfellow 提出的原始 GAN 表现相似。

Auto-Sklearn:通过自动化加速模型开发周期

在本文中,我们研究了Auto-Sklearn如何使用元学习和贝叶斯优化来找到最优的模型管道并构建模型集成。

非线性降维方法 Isomap Embedding

Isomap Embedding 等距特征映射是一种新颖,高效的非线性降维技术,它的一个突出优点是只有两个参数需要设定,即邻域参数和嵌入维数.

使用pytorch和GTP2生成文章标题

标题选的好,绅士少不了

知识图谱指南:从理论到应用

知识图谱并不是一个全新的概念,早在 2006 年就有文献提出了语义网(Semantic Network)的概念

用随机游动生成时间序列的合成数据

随机游走是随机过程。 当没有可用信息或没有实时数据可用时,具有随机游走的合成数据可以近似实际数据。

9个value_counts()的小技巧,提高Pandas 数据分析效率

在本文中,我们将探讨 Pandas value_counts() 的不同用例。 我希望这篇文章能帮助你节省学习 Pandas 的时间。

机器学习是如何利用线性代数来解决数据问题的

为什么线性代数的基础知识如此重要

神经网络的多任务学习方法,避免灾难性遗忘

网络目前无法擅长一项以上的任务。你可以训练一个网络擅长某件事,但是一旦你试图教给网络其他东西,它就会忘记它在第一个任务中学到的东西。