开源大模型Llama 3发布:Meta推动AI民主化(更新)

Meta正式开源Llama 3模型,提供8B和70B两个参数规模版本。该模型在多个基准测试中表现出色,被认为是目前最强大的开源大语言模型。

Llama 3采用全新的分词器,词表大小扩大到128K,在多语言处理方面有明显提升。训练数据量也较前代增加了一倍以上。

开源社区对此反响热烈,多个下游应用和微调版本已在短时间内涌现。

70B版本的Llama 3在MMLU测试中取得了89.1%的成绩,虽然略低于GPT-4,但已经超越了GPT-3.5等多个商业模型。8B版本虽然参数较少,但在特定任务上经过微调后也能达到不错的效果。

Meta在训练Llama 3时采用了更为精细的数据筛选策略。训练语料超过15万亿token,是Llama 2的7倍多。这些数据来源包括公开网页、书籍、代码仓库等,覆盖了多种语言和领域。

新的分词器是Llama 3的另一大改进。词表从32K扩大到128K,使得模型能够更准确地处理多语言文本,特别是中文、日文等使用大量字符的语言。测试显示,在中文理解任务中,Llama 3的表现较Llama 2提升了约30%。

Meta坚持开源策略的初衷是推动AI技术的民主化。公司CEO马克·扎克伯格表示:'我们相信开源的力量,它可以让更多的开发者和企业都能使用最先进的AI技术。'

Llama 3的发布在开源社区引发了一波创新浪潮。Hugging Face等平台上已经出现了数百个基于Llama 3的微调版本,涵盖了医疗、法律、编程等专业领域。

不过,Meta也面临一些争议。部分研究人员担心,开源大模型可能被滥用,例如生成虚假信息或恶意代码。Meta回应称,他们在模型中加入了安全限制,并呼吁开发者负责任地使用该技术。