跨国科技公司Yandex最近推出了用于训练大型语言模型的开源方法YaFSDP。YaFSDP可用于增强GPU通信并减少LLM训练中的内存使用量与FSDP相比其训练速度提升最高可达26%。YaFSDP方法目前已可以在Github上免费访问。 网页链接
精彩评论