本文只实现了前向传播。扩展到完整的训练级 FlashAttention(反向传播、dropout、各种 mask 变体)留待后续工作。
资讯同步
文章同步
公众号:deephub-imba
公众号:奕凯的技术栈