transformer - overfit.cn

优化注意力层提升 Transformer 模型效率：通过改进注意力机制降低机器学习成本

本文将深入探讨在 PyTorch 生态系统中优化注意力层的多种技术路径，并将重点聚焦于那些在降低计算成本的同时能够保持注意力层精度的创新方法。

Deephub 2024-11-22 21:30:35 0 收藏

【AI大模型】ELMo模型介绍：深度理解语言模型的嵌入艺术

ELMo是2018年3月由华盛顿大学提出的一种预训练模型.ELMo的全称是Embeddings from Language Models.ELMo模型的提出源于论文。

overfit同步小助手 2024-11-15 10:01:18 0 收藏

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

纵观近年的顶会论文和研究热点，我们不得不承认一个现实：CNN相关的研究论文正在减少，曾经的"主角"似乎正逐渐淡出研究者的视野。

Deephub 2024-11-14 09:57:31 0 收藏

Audio Spectrogram Transformer (AST)工作介绍

Audio Spectrogram Transformer (AST)，是一种基于 Transformer 模型的音频分类方法。AST 利用了 Transformer 模型在捕获全局特征方面的优势，将音频信号转换为频谱图进行处理。本文是对 AST 及其相关研究工作的详细介绍。

overfit同步小助手 2024-11-12 16:01:38 0 收藏

Tokenformer：基于参数标记化的高效可扩展Transformer架构

本文是对发表于arXiv的论文 “TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS” 的深入解读与扩展分析。主要探讨了一种革新性的Transformer架构设计方案，该方案通过参数标记化实现了模型的

overfit同步小助手 2024-11-10 21:01:56 0 收藏

Tokenformer：基于参数标记化的高效可扩展Transformer架构

本文是对发表于arXiv的论文 "TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS" 的深入解读与扩展分析。

Deephub 2024-11-07 09:36:23 0 收藏

论文研读：TransMorph—用于无监督医学图像配准的Transformer

在过去，卷积神经网络(ConvNets)一直是医学图像分析领域的研究热点。但是它的缺点是很少关注图像中的远程空间关系。最近，人们提出Transformer来解决ConvNet的缺点，并在许多医学成像应用中产生了最先进的性能，因为其大得多的感受野能够更精确地理解运动图像和固定图像之间的空间对应关系。在

overfit同步小助手 2024-11-04 01:01:33 0 收藏

【AI大模型】Transformer模型构建指南：轻松掌握核心技术

通过本专栏的博文，我们已经完成了所有组成部分的实现, 接下来就来实现完整的编码器-解码器结构. 接着将基于以上结构构建用于训练的模型.🍔 Tansformer模型构建过程的代码分析 nn.init.xavier_uniform演示:🍔 小结学习并实现了编码器-解码器结

overfit同步小助手 2024-11-02 09:01:19 0 收藏

【代码复现训练】Vision Transformer(ViT)

尝试使用ViT做一个简单的花卉分类任务，默认使用ViT-B/16模型

overfit同步小助手 2024-11-02 03:01:38 0 收藏

AI大模型系列之七：Transformer架构讲解

Transformer模型设计之初，用于解决机器翻译问题，是完全基于注意力机制构建的编码器-解码器架构，编码器和解码器均由若干个具有相同结构的层叠加而成，每一层的参数不同。编码器主要负责将输入序列转化为一个定长的向量表示，解码器则将这个向量解码为输出序列。Transformer总体架构可分为四个部分

overfit同步小助手 2024-10-28 14:02:20 0 收藏

梯度累积的隐藏陷阱：Transformer库中梯度累积机制的缺陷与修正

本文将从以下几个方面展开讨论：首先阐述梯度累积的基本原理，通过实例说明问题的具体表现和错误累积过程；其次分析不同训练场景下该问题的影响程度；最后评估Unsloth提出并已被Hugging Face在Transformers框架中实现的修正方案的有效性。

Deephub 2024-10-24 09:31:16 0 收藏

TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

TimeDART是一种专为**时间序列预测**设计的自**监督学习**方法。它的核心思想是通过从时间序列历史数据中学习模式来改进未来数据点的预测。

Deephub 2024-10-23 11:27:59 0 收藏

【AI学习】Mamba学习（二）：线性注意力

Softmax 注意力的问题是，Softmax是非线性的函数，如果没有 Softmax，那么就是三个矩阵 (query・key)・value 连乘，而矩阵乘法满足结合率，可以调整为调整为 query・(key・value)。 (query・key)得到是n✖n的矩阵，(key・value)得到的是

overfit同步小助手 2024-10-23 11:01:43 0 收藏

【AI大模型】深入Transformer架构：输入和输出部分的实现与解析

因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理，因此需要在Embedding层后加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.

overfit同步小助手 2024-10-22 09:01:23 0 收藏

MoH：融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

这篇论文提出了一种名为混合头注意力(Mixture-of-Head attention, MoH)的新架构,旨在提高注意力机制的效率,同时保持或超越先前的准确性水平。

Deephub 2024-10-21 09:09:55 0 收藏

Vit transformer中class token作用

因为transformer输入为一系列的patch embedding，输出也是同样长的序列patch feature，但是最后要总结为一个类别的判断，简单方法可以用avg pool，把所有的patch feature都考虑算出image feature。其中训练的时候，class token的em

overfit同步小助手 2024-10-21 00:01:45 0 收藏

Liquid AI与液态神经网络：超越Transformer的大模型架构探索

自2017年谷歌发表了开创性的论文《Attention Is All You Need》以来，基于Transformer架构的模型迅速成为深度学习领域的主流选择。然而，随着技术的发展，挑战Transformer主导地位的呼声也逐渐高涨。最近，由麻省理工学院(MIT)计算机科学与人工智能实验室（CSA

overfit同步小助手 2024-10-20 08:01:09 0 收藏

【AI大模型】深入Transformer架构：解码器部分的实现与解析

由N个解码器层堆叠而成每个解码器层由三个子层连接结构组成第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接说明:解码器层中的各个部分，如，多头注意力机

overfit同步小助手 2024-10-19 10:01:26 0 收藏

医学图像分割，Transformer+UNet的14种融合方法

在此框架内，Cross Transformer 模块采用可扩展采样来计算两种模态之间的结构关系，从而重塑一种模态的结构信息，以与 Swin Transformer 同一局部窗口内两种模态的相应结构保持一致。在编码器中，输入的MRI扫描X∈RC×H×W×D，具有C个通道(模态)，H×W的空间分辨率和D

overfit同步小助手 2024-10-14 16:01:18 0 收藏

【AI小项目4】用Pytorch从头实现Transformer（详细注解）

阅读Transformer论文并用Pytorch从头实现了简单的Transformer模型

overfit同步小助手 2024-10-14 14:01:40 0 收藏

优化注意力层提升 Transformer 模型效率：通过改进注意力机制降低机器学习成本

【AI大模型】ELMo模型介绍：深度理解语言模型的嵌入艺术

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

Audio Spectrogram Transformer (AST)工作介绍

Tokenformer：基于参数标记化的高效可扩展Transformer架构

Tokenformer：基于参数标记化的高效可扩展Transformer架构

论文研读：TransMorph—用于无监督医学图像配准的Transformer

【AI大模型】Transformer模型构建指南：轻松掌握核心技术

【代码复现训练】Vision Transformer(ViT)

AI大模型系列之七：Transformer架构讲解

梯度累积的隐藏陷阱：Transformer库中梯度累积机制的缺陷与修正

TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

【AI学习】Mamba学习（二）：线性注意力

【AI大模型】深入Transformer架构：输入和输出部分的实现与解析

MoH：融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

Vit transformer中class token作用

Liquid AI与液态神经网络：超越Transformer的大模型架构探索

【AI大模型】深入Transformer架构：解码器部分的实现与解析

医学图像分割，Transformer+UNet的14种融合方法

【AI小项目4】用Pytorch从头实现Transformer（详细注解）

作者榜

资讯小助手

内容小助手

Deephub

奕凯