DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
DeepSeekMoE“变体”来了,200美元以内,内存需求减少17.6-42%!名叫CoE,被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。与并行处理不同,CoE使专家能在单层内串行通信,形成一种迭代机制,即专家能“沟通”,在其它专家输出之上处理token。OCRRAGEN的贡献者名单中也有ManlingLi、吴佳俊、李飞飞的身影。
摩尔线程新方法优化AI交互:显存节省最多82%
摩尔线程科研团队近日发布了一项新的研究成果《RoundAttention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的FlashAttention推理引擎,kv-cache显存占用节省最多82%。AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。RoundAttention的端到端延迟低于现在主流的FlashAttention推理引擎,kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。