0


14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等

在深度学习技术的飞速发展中,Transformer模型无疑成为了当今研究的热点,它凭借其独特的架构和强大的表达能力,在自然语言处理、计算机视觉和语音识别等领域取得了令人瞩目的成果。

今天,特意为大家整理了14篇Transformer热门论文,这些论文涵盖了注意力机制、架构改进以及适用性扩展等多个方向,一起看看Transformer方向近期的研究成果和进展吧!

┃Attention机制改进与替代

1、Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers(AAAI2024)

重新思考注意力:探索浅层前馈神经网络作为Transformer中注意力层的替代方案

简述:本文研究探讨了使用简单的浅层前馈网络来模拟Transformer模型中注意力机制的有效性,研究用浅层前馈网络替换了Transformer中注意力机制的关键元素,并通过知识蒸馏对这些网络进行训练。在IWSLT2017数据集上的实验表明,这些“无注意力的变形金刚”与原始架构的性能相当。通过消融研究和替代网络试验,支持了该方法的可行性,这表明浅层前馈网络在简化序列到序列任务的复杂架构方面具有潜力。

图片

2、Fairness-Aware Structured Pruning in Transformers(AAAI2024)

Transformer中的公平感知结构化剪枝

简述:本文研究分析了注意力头如何影响基于转换器的预训练语言模型中的公平性和性能,并提出了一种新方法,用于修剪对公平性产生负面影响的注意力头,同时保留对性能至关重要的注意力头。这种方法实用,因为它不需要微调最终修剪的模型。研究结果表明,与有偏见的模型相比,不同尺寸的模型在减少性别偏见的同时,性能仅略有下降。

图片

3、FLatten Transformer: Vision Transformer using Focused Linear Attention(ICCV2023)

FLatten Transformer:使用聚焦线性注意力的视觉Transformer

简述:本文提出了一种聚焦线性注意力模块,旨在提高效率和性能。通过分析线性注意力的局限性,研究人员引入了映射函数和秩恢复模块,增强了自我注意力的表现力,同时保持较低的计算复杂度。实验证明,该模块适用于多种视觉转换器&#x


本文转载自: https://blog.csdn.net/2401_82426425/article/details/135956948
版权归原作者 AI热心分享家 所有, 如有侵权,请联系我们删除。

“14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等”的评论:

还没有评论