
广义线性模型(GLM)及其应用
广义线性模型[generalize linear model(GLM)]是线性模型的扩展,通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。

10个常用的损失函数解释以及Python代码实现
理解机器学习中的损失函数

使用PyTorch和Keras实现 pix2pix GAN
对比两个框架实现同一个模型到底有什么区别?

超参数黑盒(Black-box)优化的Python代码示例
暴力搜索优化的一个替代方案是黑盒(Black-Box)非凸优化技术。黑盒非凸优化算法可根据某些预定义的度量找到足够最佳的局部最小值(或最大值)的次优解。

贝叶斯自举法Bayesian Bootstrap
简单,快速,高效,稳定

使用Dask,SBERT SPECTRE和Milvus构建自己的ARXIV论文相似性搜索引擎
通过矢量相似性搜索,可以在〜50ms内响应〜640K论文上的语义搜索查询

几行 Python 代码就可以提取数百个时间序列特征
python的tsfresh包可以为时间序列数据生成标准的数百个通用特性。在本文中,我们将深入讨论tsfresh包的使用。
5个例子学会Pandas中的字符串过滤
要处理文本数据,需要比数字类型的数据更多的清理步骤。为了从文本数据中提取有用和信息,通常需要执行几个预处理和过滤步骤。

CVPR 2022上人脸识别相关的论文分类整理
人脸识别是AI研究的一个重要的方向,CVPR 2022也有很多相关的论文,本篇文章将针对不同的应用分类进行整理,希望对你有帮助

你的模型是最好的还是最幸运的?选择最佳模型时如何避免随机性
对于数据科学家来说,知道模型选择中哪一部分是偶然发挥的作用是一项基本技能。在本文中,我们将说明如何量化选择最佳模型过程中涉及的随机性。

2022年8月的10篇论文推荐
10篇关于强化学习(RL)、缩放定律、信息检索、语言模型等的论文推荐

DALL·E-2是如何工作的以及部署自己的DALL·E模型
在本文中,我们将简单介绍DALL-E2是如何工作的,并且把DALL·E Mini生成的图像输入到其他图像处理模型(GLID-3-xl和SwinIR)中来提高生成图像的质量

7个步骤详解AdaBoost 算法原理和构建流程
AdaBoost 是集成学习中的一个常见的算法,它模仿“群体智慧”的原理:将单独表现不佳的模型组合起来可以形成一个强大的模型。

更简单的掩码图像建模框架SimMIM介绍和PyTorch代码实现
在本文中我们将探索一篇和MAE同期的工作:SimMIM,任何VIT都可以在大量未注释的数据上进行训练,并且可以很好地学习下游任务。

10个自动EDA库功能介绍:几行代码进行的数据分析靠不靠谱
在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。

8个常见的机器学习算法的计算复杂度总结
计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。

在表格数据集上训练变分自编码器 (VAE)示例
变分自编码器 (VAE) 是在图像数据应用中被提出,但VAE不仅可以应用在图像中。在这篇文章中,我们将简单介绍什么是VAE,以及解释“为什么”变分自编码器是可以应用在数值类型的数据上,最后使用Numerai数据集展示“如何”训练它。

细胞图像数据的主动学习
通过细胞图像的标签对模型性能的影响,为数据设置优先级和权重。

10快速入门Query函数使用的Pandas的查询示例
pandas.的query函数为我们提供了一种编写查询过滤条件更简单的方法,特别是在的查询条件很多的时候,在本文中整理了10个示例,掌握着10个实例你就可以轻松的使用query函数来解决任何查询的问题。

使用分类权重解决数据不平衡的问题
在分类任务中,不平衡数据集是指数据集中的分类不平均的情况,会有一个或多个类比其他类多的多或者少的多。