斯坦福CMU提出新序列模型Mamba 性能优于Transformer
斯坦福大学和卡内基梅隆大学的研究团队联合提出了一种新的序列模型,名为Mamba,它在语言、音频和DNA序列等任务上超越了Transformer模型。Mamba采用了一种新的架构,具有线性复杂度和更高的推理吞吐量。Mamba的出现对于序列建模领域来说是一个重要的突破,未来还有许多研究和实践的工作需要进行。
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的半壁江山」。但在AI大模型领域,Transformer架构不能这么形容,因为它几乎撑起了「整个江山」。与类似规模的Transformer相比,Mamba具有5倍的生成吞吐量Mamba-3B的质量与两倍于其规模的Transformer相当。
微软正式宣布其首款人工智能芯片 Maia 100 及基于 Arm 的通用计算芯片 Cobalt 100
微软确认了此前的传闻:该公司已自主开发了AI芯片,旨在训练大型语言模型,减少对Nvidia的依赖。微软还研制了自家的基于Arm架构的CPU,专为云计算工作负载设计。随着微软本周继续推出更多Copilot功能和BingChat改版计划,Maia可能很快就能帮助平衡支持这些新体验所需求的AI芯片需求量。