MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

这篇论文提出了一种名为混合头注意力(Mixture-of-Head attention, MoH)的新架构,旨在提高注意力机制的效率,同时保持或超越先前的准确性水平。

三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力

本文深入探讨Transformer模型中三种关键的注意力机制:自注意力、交叉注意力和因果自注意力。我们不仅会讨论理论概念,还将使用Python和PyTorch从零开始实现这些注意力机制。

CNN中的注意力机制综合指南:从理论到Pytorch代码实现

本文将全面介绍CNN中的注意力机制,从基本概念到实际实现,为读者提供深入的理解和实践指导。

《Attention Is All You Need》解读

是一篇由Ashish Vaswani等人在2017年发表的论文,它在自然语言处理领域引入了一种新的架构——Transformer。这个架构现在被广泛应用于各种任务,如机器翻译、文本摘要、问答系统等。Transformer模型的核心是“自注意力”(self-attention)机制,这一机制能够有效捕

注意力机制中三种掩码技术详解和Pytorch实现

在这篇文章中,我们将探索在注意力机制中使用的各种类型的掩码,并在PyTorch中实现它们。

Lookback Lens:用注意力图检测和减轻llm的幻觉

这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。

长序列中Transformers的高级注意力机制总结

本文的重点是深入研究长序列种应用的高级注意力机制的数学复杂性和理论基础

大模型中常用的注意力机制GQA详解以及Pytorch代码实现

分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。

BurstAttention:可对非常长的序列进行高效的分布式注意力计算

而最新的研究BurstAttention可以将2者结合,作为RingAttention和FlashAttention之间的桥梁。

LLM 加速技巧:Muti Query Attention

MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。

注意力机制(一):注意力提示、注意力汇聚、Nadaraya-Watson 核回归

目录注意力机制(Attention Mechanism)是一种人工智能技术,它可以让神经网络在处理序列数据时,专注于关键信息的部分,同时忽略不重要的部分。在自然语言处理、计算机视觉、语音识别等领域,注意力机制已经得到了广泛的应用。注意力机制的主要思想是,在对序列数据进行处理时,通过给不同位置的输入信

FlashAttention算法详解

这篇文章的目的是详细的解释Flash Attention,它无需任何近似即可加速注意力计算并减少内存占用

GCNet: Global Context Network(ICCV 2019)原理与代码解析

本文通过观察发现non-local block针对每个query position计算的attention map最终结果是独立于查询位置的,那么就没有必要针对每个查询位置计算了,因此提出计算一个通用的attention map并应用于输入feature map上的所有位置,大大减少了计算量的同时又

​注意力机制中的掩码详解

本文将详细介绍掩码的原理和机制。

图解transformer中的自注意力机制

本文将将介绍注意力的概念从何而来,它是如何工作的以及它的简单的实现。

[ 注意力机制 ] 经典网络模型1——SENet 详解与复现

[ 注意力机制 ] 经典网络模型1——SENet 详解与复现1、Squeeze-and-Excitation Networks2、Squeeze-and-Excitation block3、SENet 详解4、SENet 复现Squeeze-and-Excitation Networks简称 SEN

论文推荐:ACMix整合self-Attention和Convolution (ACMix)的优点的混合模型

混合模型ACmix将自注意与卷积的整合,同时具有自注意和卷积的优点。这是清华大学、华为和北京人工智能研究院共同发布在2022年CVPR中的论文

[ 注意力机制 ] 经典网络模型2——CBAM 详解与复现

[ 注意力机制 ] 经典网络模型2——CBAM 详解与复现1、Convolutional Block Attention Module2、CBAM 详解Channel Attention ModuleSpatial Attention Module3、CBAM 复现简称 ``CBAM``,2018年

视觉 注意力机制——通道注意力、空间注意力、自注意力

本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。

[ 注意力机制 ] 经典网络模型3——ECANet 详解与复现

[ 注意力机制 ] 经典网络模型3——ECANet 详解与复现1、Efficient Channel Attention Module2、ECANet 详解3、ECANet 复现简称 ``ECA``,2020年 提出的一种 ``高效通道注意力(ECA)模块`` ;该模块只涉及少数几个 参数,但具有明

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈