国产AI模型再次取得突破。3月24日,蚂蚁集团宣布使用国产芯片开发了一种训练人工智能模型的技术,可将成本降低20%。知情人士透露,蚂蚁集团采用国产芯片,并基于“专家混合”机器学习方法来训练模型,效果与英伟达H800等芯片相当。
这一进展表明蚂蚁集团加入了AI领域的竞争。自DeepSeek展示出能够以远低于OpenAI和谷歌的成本训练强大模型以来,竞争加速升级。这也反映出中国企业正积极尝试用本土替代方案取代英伟达的高端半导体产品,尽管H800并非英伟达最顶级的芯片。
近期,蚂蚁集团Ling团队发表了最新技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》。论文提到,近年来,随着大型语言模型的快速发展,学术界和产业界围绕通用人工智能展开了广泛讨论。尽管稠密模型取得了显著进展,专家混合模型在某些特定任务中已展现出优于传统稠密模型的性能。
然而,MoE模型的训练通常依赖于高性能计算资源,其高昂的成本限制了其在资源受限环境中的广泛应用。因此,该研究旨在提出创新的训练策略,使LLM在资源和预算受限的情况下也能实现高效训练,推动AI技术的普惠发展。
为了给业界提供一种适用于资源受限场景的模型训练新路径,论文介绍了两款开源MoE模型:Ling-Lite(总参数16.8B,激活参数2.75B)与Ling-Plus(总参数290B,激活参数28.8B),重点展示其探索与优化过程。基于优化技术,蚂蚁集团开发并开源了Ling系列MoE模型,在资源成本与模型性能之间取得良好平衡。例如,Ling-Plus模型在五种不同硬件配置下完成9万亿token的预训练任务。若使用高性能硬件设备训练1万亿token,预计成本为635万元人民币;而使用低规格硬件系统则成本约为508万元,节省近20%。这证明即使在低性能设备上,也能实现大规模MoE模型的有效训练,提升了基础模型开发在计算资源选择上的灵活性与性价比。
实验结果最终表明,一个规模为300B的MoE大语言模型可以在性能较低的设备上有效训练,并在性能上达到与同规模的其他模型相当的水平。与高性能设备相比,在预训练阶段使用低规格硬件系统可显著节约成本,计算开支约降低20%。
当前最先进的MoE模型在训练过程中严重依赖高性能AI加速器,这类高端硬件持续供不应求。相比之下,性能较低的加速器更易获得且单价更低。这种差异凸显出建立一种能够在异构计算单元和分布式集群之间无缝切换的技术体系的必要性,从而优化训练与推理的整体成本。
MoE模型的训练通常依赖于如英伟达所售GPU这类高性能芯片,这使得训练成本对许多中小企业而言过于高昂,限制了更广泛的应用。蚂蚁集团一直在致力于提高大语言模型的训练效率,并突破这一限制。从其论文标题即可看出,该公司将目标定为“在无需高端GPU的情况下扩展模型规模”。
这一方向与英伟达的战略背道而驰。英伟达首席执行官黄仁勋曾表示,即便更高效的模型出现,对计算力的需求仍会持续增长,企业要实现更多营收将依赖更强大的芯片,而非通过更便宜的芯片来削减成本。他坚持打造具备更多处理核心、更高晶体管数量和更大内存容量的大型GPU的战略。
蚂蚁集团的研究论文凸显出中国AI领域技术创新和发展速度的加快。如果其研究成果属实,这将表明中国在人工智能领域正逐步走向自主可控,特别是在寻求成本更低、计算效率更高的模型架构来应对英伟达芯片出口限制的背景下。
针对此事,蚂蚁集团回应称,他们针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。
有话要说...