研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复
随着对生成式人工智能技术需求的激增,大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战,密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。Oobleck的开发标志着利用固有冗余提高容错性的新里程碑,为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。