五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的半壁江山」。但在AI大模型领域,Transformer架构不能这么形容,因为它几乎撑起了「整个江山」。与类似规模的Transformer相比,Mamba具有5倍的生成吞吐量Mamba-3B的质量与两倍于其规模的Transformer相当。