清华发布SmartMoE:支持用户一键实现 MoE 模型分布式训练
清华大学计算机系PACMAN实验室发布了一种稀疏大模型训练系统SmartMoE,该系统支持用户一键实现Mixture-of-Experts模型的分布式训练,并通过自动搜索并行策略来提高训练性能。论文地址:https://www.usenix.org/system/files/atc23-zhai.pdf项目地址:https://github.com/zms1999/SmartMoEMoE是一种模型稀疏化技术,通过将小模型转化为多个稀疏激活的小模型来扩展模型参数量。通过这些特点,SmartMoE系统能够提高MoE模型的易用性和训练性能,助力MoE大模型的发展。