欢迎关注我的公众号 [极智视界],获取我的更多技术分享
大家好,我是极智视界,本文分享一下 解读Mamba对LLM基础架构的冲击 作者一定是科密吧。
邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:https://t.zsxq.com/0aiNxERDq
很多时候大家都会在讨论,Transformer 到底是不是 AI 基础架构的最终解,直面这个话题,Mamba 在给出否定答案的同时直接给出了另一种解法。
Mamba,一个冲击 Transformer 的新的高性能 LLM 架构。"五倍吞吐量,性能全面包围 Transformer",在 AI 领域 "Transformer 逐渐呈现大一统" 的情况下,Mamba 无疑是那个出来 "意图破局" 的架构,而这一切,就要源于下面这篇工作,选择状态空间下的线性时间建模。从定位上来说,Mamba 不算算法层面的,所以自然也算不上什么新算法,它的定位是对标 Transformer 的基础架构。
<
版权归原作者 极智视界 所有, 如有侵权,请联系我们删除。