Llama-3公布基础训练设施,使用49,000个H100
3月13日,社交、科技巨头Meta在官网公布了两个全新的24KH100GPU集群,专门用于训练大模型Llama-3。Llama-3使用了RoCEv2网络,基于Tectonic/Hammerspace的NFS/FUSE网络存储,继续使用了PyTorch机器学习库。将Meta的Tectonic分布式存储解决方案和Hammerspace结合在一起,可以在不影响规模的情况下实现快速功能迭代。
英伟达发布新一代AI处理器H200 性能较H100提高60%至90%
英伟达Nvidia推出了H200,这是一款专为训练和部署生成式人工智能模型的图形处理单元。它基于NVIDIAHopper架构,具有先进的内存和处理能力,可处理海量的数据用于生成式AI和高性能计算工作负载。对于高性能计算应用,内存带宽对于提高数据传输速度、减少处理瓶颈至关重要。