【AI小项目4】用Pytorch从头实现Transformer(详细注解)

阅读Transformer论文并用Pytorch从头实现了简单的Transformer模型

经典CNN模型(七):MobileNetV1(PyTorch详细注释版)

在传统卷积神经网络因内存和运算量庞大而难以适配移动及嵌入式设备的背景下,2017 年,Google 团队应运推出了 MobileNetV1,这是一种专为资源受限环境设计的轻量级深度学习模型。相较于传统网络如 VGG16,MobileNetV1 在仅牺牲 0.9%的准确率的前提下,实现了模型参数精简至

CUDA-MODE 第一课课后实战(上)

Nsight Compute是一个CUDA kernel分析器,它通过硬件计数器和软件收集指标。它使用内置的专业知识来检测kernel常见的性能问题并指出发生这些问题的位置并给出一些解决方法的建议。这一内置规则集和指南就是我们所说的Guided Analysis。下面就结合Lecture1的例子来深

在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型

为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用

【torch.quantile】分位数计算

torch.quantile 分位数计算方法。

PyTorch自定义学习率调度器实现指南

本文将详细介绍如何通过扩展PyTorch的 ``` LRScheduler ``` 类来实现一个具有预热阶段的余弦衰减调度器。我们将分五个关键步骤来完成这个过程。

大模型获取embdding

以qwen为例:本文将使用 Hugging Face 的库来完成这些步骤。这是一个非常流行且功能强大的库,用于处理各种预训练语言模型。

AdEMAMix: 一种创新的神经网络优化器

这种算法旨在解决当前广泛使用的Adam及其变体(如AdamW)在利用长期梯度信息方面的局限性。研究者们通过巧妙地结合两个不同衰减率的指数移动平均(EMA),设计出了这种新的优化器,以更有效地利用历史梯度信息。

PyTorch 模型调试与故障排除指南

本文旨在为 PyTorch 开发者提供一个全面的调试指南,涵盖从基础概念到高级技术的广泛内容。

【AI】Pytorch_损失函数&优化器

持续更新至pytorch大部分内容更完。本文已达到10w字,故按模块拆开,详见目录导航。整体框架如下损失函数及优化器。

【深度学习入门篇 ④ 】Pytorch实现手写数字识别

通过前面的学习,我们已经掌握了PyTorch API的基本使用,今天我们使用PyTorch实现手写数字识别案例!通过前面的内容可知,调用MNIST返回的结果中图形数据是一个Image对象,需要对其进行处理,为了进行数据的处理,接下来学习的方法~是PyTorch中用于图像预处理和增强的一个重要模块,它

用定制开发板通过vitis ai 2.0部署自己训练的yolov3(pytorch框架)

本文介绍如何用定制开发板通过vitis ai 2.0部署自己训练的yolov3(pytorch框架)

PyTorch--卷积神经网络(CNN)模型实现手写数字识别

今天要介绍的这段代码是一个使用PyTorch框架实现的卷积神经网络(CNN)模型,用于对MNIST数据集进行分类的示例。MNIST数据集是手写数字识别领域的一个标准数据集,包含0到9的灰度图像。导入必要的库:导入PyTorch、PyTorch神经网络模块、torchvision(用于处理图像数据集)

Pytorch安装

​Pytorch的详细安装过程

pytorch-scheduler(调度器)

scheduler(调度器)是一种用于调整优化算法中学习率的机制。学习率是控制模型参数更新幅度的关键超参数,而调度器根据预定的策略在训练过程中动态地调整学习率。优化器负责根据损失函数的梯度更新模型的参数,而调度器则负责调整优化过程中使用的特定参数,通常是学习率。调度器通过调整学习率帮助优化器更有效地

【扩散模型思考记录(二)】什么是隐空间?为什么要引入隐空间?

引入隐变量空间(latent space)是生成模型中常用的技术,如变分自编码器(VAE)和生成对抗网络(GAN)。通过这种方法,可以将复杂的高维数据分布映射到一个相对简单的低维隐变量空间,从而简化采样过程。引入隐变量空间的核心思想是通过一个相对简单的低维表示来捕捉数据的复杂分布。这使得我们可以从标

如何从PyTorch迁移到MindSpore

相信做AI开发的小伙伴,有一大半用的都是PyTorch.我之前也是一直用PyTorch做开发。上个月参加了华为昇思25天打卡营,官方提供了充足的算力支持,几乎是不限时间不限量的那种,也让我体验了一把算力自由,好好感受了一番昇思框架。昇思真的是很好用的国产AI框架,但是因为之前的开发都是基于PyTor

python入门——OSError: [WinError 127] 找不到指定的程序。 Error loading

最近在使用torch的时候突然出现错误,显示OSError: [WinError 127] 找不到指定的程序。我看了一些解决方法,说要重装torch,但我这前几天还没问题,好在我还记得最近下载的包有哪些,最后删除了seaborn包得以解决,在此分享。用anaconda进入环境,然后删除包。

使用PyTorch从零构建Llama 3

本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。

最新大模型架构TTT模型代码解析(一)

这项来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta 的研究提出了一个新颖的序列建模方法,称为测试时训练(Test-Time Training, TTT)层。TTT 层通过用机器学习模型取代 RNN 的隐藏状态,并使用输入 token 的实际梯度下降来压缩上下文。研究表明,这种方法