Bi-Level Routing Attention
为了缓解多头自注意力(
Multi-Head Self-Attention, MHSA
)的可扩展性问题,先前的一些方法提出了不同的稀疏注意力机制,其中每个查询只关注少量的键值对,而非全部。然而,这些方法有两个共性问题:
- 要么使用手工制作的静态模式(无法自适应);
- 要么在所有查询中共享键值对的采样子集(无法做到互不干扰);
为此,作者探索了一种动态的、查询感知的稀疏注意力机制,其关键思想是在粗糙区域级别过滤掉大部分不相关的键值对,以便只保留一小部分路由区域(这不就把冗余的信息干掉了吗老铁们)。其次,作者在这些路由区域的联合中应用细粒度的
token-to-token
注意力。
本文以yolov7-tiny.yaml为基础网络结构进行修改
版权归原作者 dg68668 所有, 如有侵权,请联系我们删除。