transformer - overfit.cn

LayerNorm 在 Transformers 中对注意力的作用研究

LayerNorm 一直是 Transformer 架构的重要组成部分。如果问大多人为什么要 LayerNorm，一般的回答是：使用 LayerNorm 来归一化前向传播的激活和反向传播的梯度。

Deephub 2023-05-16 09:47:01 0 收藏

什么是注意力机制及其应用（self attention）？

注意力机制是自深度学习快速发展后广泛应用于自然语言处理、统计学习、图像检测、语音识别等领域的核心技术，例如将注意力机制与RNN结合进行图像分类，将注意力机制运用在自然语言处理中提高翻译精度，注意力机制本质上说就是实现信息处理资源的高效分配，例如先关注场景中的一些重点，剩下的不重要的场景可能会被暂时性

overfit同步小助手 2023-05-07 16:01:32 0 收藏

Transformer简介

transformer模型简介，包括编码器（encoder）、解码器（decoder）、训练以及模型训练中的tips。

overfit同步小助手 2023-05-03 14:01:32 0 收藏

Swin Transformer之相对位置编码详解

Swin Transformer中非常核心之一即为相对位置编码，在此我将试图将其掰开了揉碎了进行讲解，尽可能以比较形象的方式进行理解。

overfit同步小助手 2023-04-30 08:01:39 0 收藏

类ChatGPT逐行代码解读(1/2)：从零起步实现Transformer、ChatGLM-6B

transformer强大到什么程度呢，基本是17年之后绝大部分有影响力模型的基础架构都基于的transformer(比如，有200来个，包括且不限于基于decode的GPT、基于encode的BERT、基于encode-decode的T5等等)通过博客内的这篇文章《》，我们已经详细了解了trans

overfit同步小助手 2023-04-26 02:01:41 0 收藏

图像融合、Transformer、扩散模型

包大人说：“图像融合遇见Transformer，还是Transformer遇见图像融合？哪个更为贴切？”元芳回答：‘’都合适。‘’

overfit同步小助手 2023-04-25 01:01:29 0 收藏

涨点技巧：注意力机制---Yolov5/Yolov7引入BoTNet Transformer、MHSA

BoTNet同时使用卷积和自注意力机制，即在ResNet的最后3个bottleneck blocks中使用全局多头自注意力（MHSA）替换3 × 3空间卷积;MHSA作为注意力机制加入yolov5/yolov7也取得了涨点

overfit同步小助手 2023-04-24 22:01:37 0 收藏

Transformer中的Q/K/V理解

详细解释了Transformer中的Q/K/V矩阵的作用和意义。

overfit同步小助手 2023-04-20 13:01:33 0 收藏

Informer：比Transformer更有效的长时间序列预测

目录AAAI 2021最佳论文：比Transformer更有效的长时间序列预测BackgroundWhy attentionMethods:the details of InformerSolve_Challenge_1:最基本的一个思路就是降低Attention的计算量，仅计算一些非常重要的或者说

overfit同步小助手 2023-04-18 03:01:30 0 收藏

Transformer模型入门详解及代码实现

本文对Transformer模型的基本原理做了入门级的介绍，意在为读者描述整体思路，而并非拘泥于细微处的原理剖析，并附上了基于PYTORCH实现的Transformer模型代码及详细讲解。

overfit同步小助手 2023-04-15 12:01:40 0 收藏

Transformer中解码器decoder的详细讲解（图文解释）

overfit同步小助手 2023-04-15 09:01:53 0 收藏

学习笔记 | 多层感知机（MLP）、Transformer

多层感知机（MLP）、Transformer、Memory Bank

overfit同步小助手 2023-04-14 09:01:56 0 收藏

Swin Transformer原理详解篇

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！🍁🍁🍁CV攻城狮入门VIT(vision transformer)之旅——VIT原理详解篇🍁🍁🍁CV攻城狮入门VIT(vision transformer)之旅——VIT

overfit同步小助手 2023-04-14 00:01:39 0 收藏

Video Transformer | TimeSformer 理解+ 代码实战

TimeSformer（video transformer）Is Space-Time Attention All You Need for Video Understanding?

overfit同步小助手 2023-04-12 08:02:02 0 收藏

Transformer到底为何这么牛

深度学习自出生以来就不被看好，随着计算机的发展和硬件条件的提升，这种大规模计算的深度学习才重新焕发光芒。但是我们都知道深度学习，甚至是深度强化学习的效率太慢了，人类只需要重复学习几次，甚至几十次就可以学会的东西，深度学习需要成千上万次，不得不感叹深度学习算法的学习真的太慢了。深度学习的学习效率问题是

overfit同步小助手 2023-04-10 12:01:44 0 收藏

VIT：Transformer进军CV的里程碑

Transformer[1]最初提出是针对NLP领域的，并且在NLP领域大获成功，几乎打败了RNN模型，已经成为NLP领域新一代的baseline模型。这篇论文也是受到其启发，尝试将Transformer应用到CV领域。通过这篇文章的实验，给出的最佳模型在ImageNet1K上能够达到88.55%的

overfit同步小助手 2023-04-08 06:01:31 0 收藏

【pytorch】Vision Transformer实现图像分类+可视化+训练数据保存

一、Vision Transformer介绍Transformer的核心是 “自注意力” 机制。论文地址：https://arxiv.org/pdf/2010.11929.pdf自注意力（self-attention）相比卷积神经网络和循环神经网络同时具有并行计算和最短的最大路径⻓度这两个优

overfit同步小助手 2023-04-06 23:01:28 0 收藏

transformer学习笔记：Positional Encoding（位置编码）

对于任何一门语言，单词在句子中的位置以及排列顺序是非常重要的，它们不仅是一个句子的语法结构的组成部分，更是表达语义的重要概念。

overfit同步小助手 2023-04-06 17:01:37 0 收藏

Transformer框架时间序列模型Informer内容与代码解读

Transformer框架时间序列模型Informer内容与代码解读。详细介绍概括了顶会论文AAAI‘21 Best Paper的核心内容。

overfit同步小助手 2023-04-06 11:01:47 0 收藏

chatGTP的全称Chat Generative Pre-trained Transformer

chatGPT是由OpenAI开发的一个人工智能聊天机器人程序，于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。ChatGPT目前仍以文字方式交互，而除了可以通过人类自然对话方式进行交互，还可以用于相对复杂的语言工作，包括自动文本生成、自动问答、自动摘要

overfit同步小助手 2023-04-06 06:01:57 0 收藏