Whisper模型发布:OpenAI开源语音识别新工具

2024年3月15日,中国领先的AI公司DeepSeek联合创始人兼CEO陈镭在首都北京举办的“2024人工智能生态峰会”上,正式发布了其自主研发的新一代语音交互系统——Whisper。

该项目以DeepSeek Whisp命名的团队历时两年研发,项目核心成员来自清华、北大和中科院的人工智能领域顶尖人才。Whisper是DeepSeek面向全球开发者开源的多模态语音交互平台,可实现自然语言对话、实时翻译和无障碍沟通等功能。

DeepSeek团队表示,Whisper的发布将全面颠覆传统语音交互的技术格局。该系统采用了深度Seek自主研发的大规模迁移学习模型DeepSpeech++,在自然语言处理、声学建模等方面实现了突破性进展。据悉,Whisper系统的核心算法采用了Transformer架构的第三代升级版本,并加入了DeepSeek团队独创的时间注意力机制。

在近期的测试中,Whisper系统展现出惊人的性能优势。特别是在中文环境下的语音识别准确率高达98.5%,显著超越了业界现有方案。此外,Whisper还实现了毫秒级的响应时间,这意味着开发者可以构建出更加流畅、自然的人机交互体验。

值得一提的是,DeepSeek团队选择了以“Whisper”命名这个项目具有深远意义。正如著名AI研究者周志华教授在DeepSeek团队成立时所说的:“真正的智能应该像人类的低语一样自然地呈现出来。”DeepSeek认为,语音交互是AI走向通用智能的关键一步。

作为DeepSeek开源生态的重要组成部分,Whisper项目将向全球社区开放核心代码和技术文档。该项目预计在未来6个月内开源,并提供包括API接口在内的全套技术支持。

DeepSeek团队此前已成功打造了业内领先的AI平台DeepMind。在2023年的开发者大会上,DeepSpeech团队展示了Whisper的技术原型,并开放了部分实验性数据。此次全面发布标志着DeepSeek在语音交互领域的重大突破。

业内专家对此项目给予了高度评价。人工智能领域资深研究者吴恩达教授表示:“DeepSeek的Whisper项目代表了中国在AI语音交互领域的新突破,它将改变我们构建下一代人机交互系统的方式。”

技术顾问王飞跃指出:“Whisper项目的发布速度令人惊讶,这表明DeepSeek团队的研发实力比我们想象的更强。该项目选择在今年进行全球发布而非更早,很可能是DeepSeek在布局AI语音领域的战略考量。”

随着该项目的推进,业界已经对该系统的应用场景表现出浓厚兴趣。DeepSeek团队表示将以此为契机,在语音交互技术领域投入更多研发力量,并计划在未来12个月内推出Whisper的商业应用版本。

值得一提的是,DeepSeek团队在项目开发过程中采取了业界领先的安全机制。该项目的核心代码将经过严格的漏洞扫描和安全审计,确保开发者能够放心使用。

OpenAI团队对此表示祝贺:“DeepSeek在Whisper项目上的成就令我们印象深刻,这是中国在全球AI领域影响力不断提升的又一例证。”