在人工智能的领域里,开源和闭源模型一直在较量。如今,Meta AI发布了Llama3.1模型,看起来这场竞争迎来了新的分水岭。这不仅仅是一个模型的发布,更是开源AI向前迈出的新一步,预示着一个全新时代即将到来。
Llama3.1是Meta AI团队开发的全新大型语言模型。在150多个基准测试中,其405B参数版本的表现不仅赶上了目前最先进的模型GPT-4o和Claude3.5Sonnet,有些方面甚至超越了它们。这一成就标志着开源AI模型首次在性能上与闭源模型平起平坐。
为了训练Llama3.1405B模型,Meta对整个训练栈进行了大幅优化,并首次将模型算力规模扩展到了超过16000个H100GPU。采用标准的仅解码器的Transformer架构,并通过迭代的post-training流程,每轮进行SFT(监督微调)和DPO(直接偏好优化),以提高性能。
Meta提高了模型对用户指令的响应能力,增强了遵循详细指令的能力,同时保证安全性。在post-training阶段,进行多轮对齐,使用合成数据生成大部分SFT示例,并采用多种数据处理技术过滤数据至最高质量。
技术亮点:
- 上下文长度扩展:Llama3.1将上下文长度扩展到了128K,这意味着模型能够处理更复杂的任务,理解更长的文本信息。
- 多语言支持:模型新增了对八种语言的支持,大大增强了模型的通用性。
- 性能卓越:在常识、可操纵性、数学、工具使用和多语言翻译等方面,Llama3.1展现出了卓越的性能。
Llama3.1在超过15万亿个token上进行训练,这一规模的训练在业界尚属首次。
模型架构:Llama3.1采用了标准的仅解码器的Transformer架构,并进行了细微的调整,以提高模型的性能。
Meta的CEO扎克伯格表示,开源AI将成为行业的转折点。他指出,开源AI在开放性、可修改性和成本效率方面具有优势,并将推动AI技术的普及和发展。开源AI允许开发者自由地修改代码,保护数据安全,同时提供了运行效率高且负担得起的模型。此外,开源AI的发展速度快,有望成为长期标准。
Meta正与多家公司合作,发展更广泛的生态系统,支持开发者微调和蒸馏自己的模型。这些模型将在所有主要云平台上提供,包括AWS、Azure、Google、Oracle等。
Llama3.1的发布预示着开源人工智能可能成为行业标准,为AI的普及和应用开辟新的道路。