为什么交叉熵和KL散度在作为损失函数时是近似相等的

在本文中,我们将介绍熵、交叉熵和 Kullback-Leibler Divergence [2] 的概念,并了解如何将它们近似为相等。

机器学习分类算法之支持向量机

目录支持向量机算法背景介绍什么是线性可分?什么又是超平面?支持向量机的三种情况近线性可分线性不可分不用核函数的传统方法核函数Kernel是什么?核函数SVM求解过程核函数的本质代码实例模型调参gamma调参C值调参使用Polynomial kernel进行预测使用RBF kernel进行预测总结每文

3-导数(梯度/GradientTape)

本节主要介绍梯度或者导数如何计算

牛津大学出品:随机噪声对抗训练

Eη[∥δN−FGSM∥22]=Eη∥η+α⋅sign(∇xℓ(f(x+η),y))∥22=E[∑i=1d(ηi+α⋅sign(∇(η)i))2]=∑i=1dEη[(ηi+α⋅sign(∇(η)i))2]=∑i=1dEη[(ηi+α⋅sign(∇(η)i))2∣sign(∇(η)i)=1]⋅Pη[s

Jensen不等式

引言 概率不等式是概率论和数理统计的理论研究中的重要工具,对于概率极限理论和统计大样本理论,几乎所有重要结果的论证是借助于概率不等式的巧妙应用,Jensen\mathrm{Jensen}Jensen不等式和证明,并应用其带来解决一些相关问题。Jensen\mathrm{Jensen}Jensen不等

Github上10个数据科学和机器学习知识库

在本文中将介绍一些对数据科学和机器学习爱好者最有用的 Github 代码库。(排名顺序不分先后)

【万字详解·附代码】机器学习分类算法之K近邻(KNN)

目录什么是K近邻算法?关于空间的一些基本概念几何空间的五条公理向量关于距离的一些基本概念欧氏距离(Euclidean distance)曼哈顿距离(Manhattan Distance)切比雪夫距离 (Chebyshev Distance)闵可夫斯基距离(Minkowski Distance)杰卡德

2022 年 2 月 arXiv 论文推荐

本篇文章选择了 10 篇论文,这些论文展示了各种 AI 子领域的关键发展:自动强化学习 (AutoRL)、多模态语言模型 (LM)、计算机视觉 (CV) 中的ConvNets vs Transformers 、无监督神经信息 检索 (IR) 等。

使用时间特征使让机器学习模型更好地工作

在本文中,我将通过一个实际示例讨论如何从 DateTime 变量中提取新特征以提高机器学习模型的准确性。

K-means与DBSCAN聚类算法

K-means聚类算法与DBSCAN算法是聚类问题中的典型算法,本文通过流程图、Spss、以及伪代码等形式做一个分享,希望读者更好地了解这两种算法

一文详解向量导数与矩阵导数

目录一、向量对标量求导(标量对向量求导)二、矩阵对标量求导(标量对矩阵求导)三、乘法法则(Product Rule)3.1 逆矩阵的导数(逆矩阵对标量求导)四、矩阵的迹对矩阵求导4.1 一些推论一、向量对标量求导(标量对向量求导)设 a=(a1,a2,⋯ ,an)\boldsymbol{a}=(a_

【Matplotlib】pyplot的高级功能

添加图例与注释给图形添加图例代码import numpy as npimport matplotlib.pyplot as pltnbSamples = 128x = np.linspace(-np.pi, np.pi, nbSamples)y1 = np.sin(x)y2 = np.cos(x)p

论文推荐-使用 Noisy Student 进行自训练可以提高 ImageNet 分类的表现

使用 Noisy Student 进行自训练改进 ImageNet 分类是一篇由 Google Research、Brain Team 和Carnegie Mellon大学发表在2020 CVPR的论文

这9个特征工程的使用技巧,解决90%机器学习问题

特征是什么?为什么需要工程设计?基本上,所有机器学习算法都是将一些输入数据转化为输出。这些输入数据包括若干特征,通常是以由列组成的表格形式出现。而算法往往要求输入具有某些特性的特征才能正常工作。因此,出现了对特征工程的需求。特征工程至少有两个目标,构建适合机器学习算法要求的输入数据。改善机器学习模型

协同过滤推荐算法

一、协同过滤思想简介二、协同过滤算法原理介绍三、基于用户的协同过滤算法描述四、基于物品的协同过滤算法(item-based collaborative filtering)基于物品的协同过滤算法的优缺点一、协同过滤思想简介协同过滤,从字面上理解,包括协同和过滤两个操作。首先我们在外出和朋友吃饭的时候

5分钟NLP - SpaCy速查表

SpaCy 是一个免费的开源库,用于 Python 中的高级自然语言处理包括但不限于词性标注、dependency parsing、NER和相似度计算。它可帮助构建处理和理解大量文本的应用程序可用于多种方向,例如信息提取、自然语言理解或为深度学习提供文本预处理。

深度学习入门之神经网络

接着啃书第三章

Python学习笔记——Numpy的初步学习

关于numpy模块的简单学习,欢迎大家多多指教

伪标签:用于深度神经网络的简单高效的半监督学习方法

未标记的数据由监督学习网络标记,即所谓的伪标记。然后使用标记数据和伪标记数据训练网络。

2022年必须要了解的20个开源NLP 库

在本文中,我列出了当今最常用的 NLP 库,并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势,因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。