用FP8训练大模型有多香?微软:比BF16快64%,省42%内存
低精度训练是大模型训练中扩展模型大小,节约训练成本的最关键技术之一。在这种背景下,尤其是当我们关注扩展至OpenAI提出的超级智能模型规模时,低精度训练是其中最有效且最关键的技术之一,其优势包括内存占用小、训练速度快,通信开销低。可预见,FP8低精度训练将成为未来大模型研发的新基建。