两大开源推理模型亮相,Apache 2.0许可证开放使用

人工智能领域再迎重大突破。20日,OpenAI官方宣布推出两款基于 'gpt-oss' 技术的开源大型语言模型(Large Language Models)——gpt-oss-120b 和 gpt-oss-20b,这两个模型均采用 Apache 2.0 开源协议,并配合了 OpenAI 的 'gpt-oss 使用策略'。

这标志着 OpenAI 正式开启其大型模型的开源战略。不同于以往以商业闭源模式为主,此次发布将 OpenAI 放入与 Meta、Mistral 等机构相似的竞争格局,成为开源模型领域的重要参与者。业内观察人士认为,这对全球 AI 开发者社区将产生深远影响。

背景:OpenAI 的开源转型

作为 AI 行业的领头羊,OpenAI 曾长期保持其核心模型的闭源策略。此前发布的 GPT-4、Claude 3 等突破性模型均未向公众开放完整参数,这让业界对 OpenAI 的技术路线充满好奇。随着行业竞争加剧和技术民主化趋势日益明显,OpenAI 开始改变策略。

值得注意的是,2024年初 OpenAI 已经发布过 'gpt-oss' 基础研究版本,但未提供完整模型参数。此次发布的两款真实可用的开源模型填补了这一空白。业界普遍认为,这不仅仅是简单的模型发布,而是 OpenAI 战略转型的重要标志。

从历史角度看,大型模型的开源在 AI 行业曾经历过多次浪潮。2018年左右,DeepMind 开放了 AlphaFold 的早期版本;Meta 在 2019 年发布 LLaMA 模型,该模型成为后来许多开源项目的起点;2023年 OpenAI 开始与 Meta、Mistral 等机构争夺开源话语权,此次发布可视为这一努力的延续。

模型参数:开源规模与性能权衡

gpt-oss-120b 是一款真正意义上的 120B 参数模型,接近 GPT-4 的规模层级。相比之下,gpt-oss-20b 模型虽然仅有 GPT-4-turbo 参数的十分之一,但仍属于大型模型范畴。从参数比例来看,这两个模型至少是 OpenAI 混合策略中 '真实可用' 开源工作的起点。

从公布的性能数据来看,这两个模型展现出令人印象深刻的推理能力。OpenAI 强调这是'经过调整的开源版本',意味着模型在保持核心能力的同时进行了必要的参数缩减或结构简化。业内专家认为这种调整是可能的,因为在过去两年中开源模型的研究已取得显著进展。

值得关注的是,OpenAI 并未公布这两个模型的具体量化精度(如 FP16/GPTQ)。这通常意味着他们采用了某种级别的权重量化技术来减小模型大小,但也可能是暂时未披露这些细节。在业内,120B 规模的模型如果未经量化通常无法直接开源(如 LLaMA 2 的最大模型仅有13B)。

这种参数规模的设计,反映出 OpenAI 在开源策略上的谨慎考量。既不是完全闭源,也不是毫无保留地开放所有参数的极限模型,而是在安全性、性能和开源程度之间寻找平衡点。

Apache 许可证 vs GPL:不同的开源哲学

OpenAI 选择 Apache 2.0 许可证而非业界常用的 GPL,这是一个值得注意的策略差异。Apache 许可证强调'专利许可证'条款,并允许商业使用,这对企业级客户尤为重要。相比之下,GPL 要求衍生作品也必须开源。

这种选择表明 OpenAI 希望将其模型更广泛地融入商业场景,而不必立即面对完全开源的要求。从历史经验看,Meta 也曾选择 Apache 许可证来发布 LLaMA 系列模型,这为 OpenAI 的决策提供了参考。

业内分析认为:Apache 许可证对 OpenAI 的战略更为灵活。它允许模型被整合到商业产品中,开发者可以自由使用这些模型进行商业应用开发。这也意味着 OpenAI 可以在保持基本开源原则的同时,控制其模型的商业应用形式。

Usage Policy:防止滥用的技术屏障

OpenAI 附加的 'gpt-oss 使用策略' 引起了广泛关注。虽然具体内容未完全公开,但从现有开源模型的使用策略来看,OpenAI 很可能会设置某些技术限制或抽样机制来防止模型的不当使用。

这种做法并非罕见。Meta 发布 LLaMA 模型时就采用了类似的'使用策略',要求开发者在进行生产部署前报告用途。OpenAI 的做法既体现了开放精神,又确保了这些'经过调整的开源版本'不会被完全自由地滥用。

业界对此的看法存在分歧。支持者认为这是必要的技术安全机制;担忧者则担心这会削弱模型的实用性。

全球开源竞争格局:中国的机会与挑战

OpenAI 的加入加剧了全球顶级 AI 模型开发机构之间的竞争态势。此前,Meta、Mistral 等西方机构已引领开源模型发展。

从中国AI发展的角度看,OpenAI的加入既是机遇也是挑战。一方面,在线教育、金融等领域的大模型服务商能够更方便地利用基础开源模型进行二次开发;另一方面,中国本土企业需要重新审视技术追赶策略。

值得一提的是,在线教育领域的大模型应用正处于快速扩张期。2023年以来,已有大量学校引入 AI 批改、智能答疑等系统。OpenAI开源模型的出现或将推动这一领域技术门槛进一步降低。

开发者社区反应

消息传出后,GitHub 上立即有数百名开发者开始请求访问这两个模型。相比之下,OpenAI 开放 API 访问的速度和节奏均被视为业界标杆。

开源社区反应同样热烈。多位知名研究者在社交平台上表示将基于这两个模型进行二次开发,特别是在多语言处理领域。这一反应凸显了 OpenAI 在开发者中积累的良好声誉。

从历史数据看,OpenAI 的模型通常展现出更强的综合性能。例如,在2023年之前发布的多个基准测试中,GPT-4 所使用的模型均优于同等参数规模的开源竞争者。业界期待这次发布的 gpt-oss 模型能够保持这一优势。

未来展望

业内人士普遍认为,OpenAI 很可能在未来几个月内进一步推进其开源战略。特别是随着 DeepSeek、百川智能等中国机构的崛起,OpenAI 的开源节奏正在加快。

从趋势看:gpt-oss 模型很可能会成为 OpenAI 在开源领域的旗舰产品之一,类似于 Meta 的 LLaMA 系列或 Mistral 大模型。这意味着未来 OpenAI 可能不会一次性发布所有'调整版开源模型',而是采取逐步开放的策略。

值得一提的是,在线教育领域的大模型应用正处于快速发展期。随着 OpenAI 新模型的开源,这一领域的技术门槛预计将进一步降低。