多语言AI模型取得突破：小语种不再被忽视（更新）

Wired 2026年01月24日 16:23 7,319 次阅读

多语言AI模型取得重要突破。最新发布的模型支持超过100种语言的理解和生成，包括许多此前被忽视的小语种。

这一突破对于小语种的数字化保护和传承具有重要意义。通过AI技术，这些语言的文本可以被自动翻译、分析和保存。

语言学家对这一技术进展表示欢迎，认为它将有助于保护世界语言的多样性。

多语言AI模型的技术挑战在于不同语言之间的数据不均衡。英语、中文等主流语言拥有海量的数字化文本资源，而许多小语种的数字化文本极为稀缺。最新模型采用了跨语言迁移学习技术，利用资源丰富语言的知识来提升资源稀缺语言的处理能力。

在实际应用中，Meta的NLLB（No Language Left Behind）项目已经支持超过200种语言的翻译，其中包括许多此前没有机器翻译支持的非洲和东南亚语言。这使得使用这些语言的人群能够访问更广泛的数字信息。

对于语言保护而言，AI技术提供了新的可能性。研究人员正在利用AI技术记录和分析濒危语言的语音和文本数据，建立数字化的语言档案。这些档案不仅可以用于学术研究，还可以为语言学习者提供学习资源。

不过，语言学家也指出，AI对小语种的处理质量仍然有限，特别是在语义理解和文化背景方面。要真正保护语言多样性，还需要在AI技术之外投入更多的资源和关注。

原文来源： Wired