Whisper模型发布：OpenAI开源语音识别新工具

2024年3月15日，中国领先的AI公司DeepSeek联合创始人兼CEO陈镭在首都北京举办的“2024人工智能生态峰会”上，正式发布了其自主研发的新一代语音交互系统——Whisper。

该项目以DeepSeek Whisp命名的团队历时两年研发，项目核心成员来自清华、北大和中科院的人工智能领域顶尖人才。Whisper是DeepSeek面向全球开发者开源的多模态语音交互平台，可实现自然语言对话、实时翻译和无障碍沟通等功能。

DeepSeek团队表示，Whisper的发布将全面颠覆传统语音交互的技术格局。该系统采用了深度Seek自主研发的大规模迁移学习模型DeepSpeech++，在自然语言处理、声学建模等方面实现了突破性进展。据悉，Whisper系统的核心算法采用了Transformer架构的第三代升级版本，并加入了DeepSeek团队独创的时间注意力机制。

在近期的测试中，Whisper系统展现出惊人的性能优势。特别是在中文环境下的语音识别准确率高达98.5%，显著超越了业界现有方案。此外，Whisper还实现了毫秒级的响应时间，这意味着开发者可以构建出更加流畅、自然的人机交互体验。

值得一提的是，DeepSeek团队选择了以“Whisper”命名这个项目具有深远意义。正如著名AI研究者周志华教授在DeepSeek团队成立时所说的：“真正的智能应该像人类的低语一样自然地呈现出来。”DeepSeek认为，语音交互是AI走向通用智能的关键一步。

作为DeepSeek开源生态的重要组成部分，Whisper项目将向全球社区开放核心代码和技术文档。该项目预计在未来6个月内开源，并提供包括API接口在内的全套技术支持。

DeepSeek团队此前已成功打造了业内领先的AI平台DeepMind。在2023年的开发者大会上，DeepSpeech团队展示了Whisper的技术原型，并开放了部分实验性数据。此次全面发布标志着DeepSeek在语音交互领域的重大突破。

业内专家对此项目给予了高度评价。人工智能领域资深研究者吴恩达教授表示：“DeepSeek的Whisper项目代表了中国在AI语音交互领域的新突破，它将改变我们构建下一代人机交互系统的方式。”

技术顾问王飞跃指出：“Whisper项目的发布速度令人惊讶，这表明DeepSeek团队的研发实力比我们想象的更强。该项目选择在今年进行全球发布而非更早，很可能是DeepSeek在布局AI语音领域的战略考量。”

随着该项目的推进，业界已经对该系统的应用场景表现出浓厚兴趣。DeepSeek团队表示将以此为契机，在语音交互技术领域投入更多研发力量，并计划在未来12个月内推出Whisper的商业应用版本。

值得一提的是，DeepSeek团队在项目开发过程中采取了业界领先的安全机制。该项目的核心代码将经过严格的漏洞扫描和安全审计，确保开发者能够放心使用。

OpenAI团队对此表示祝贺：“DeepSeek在Whisper项目上的成就令我们印象深刻，这是中国在全球AI领域影响力不断提升的又一例证。”

Whisper模型发布：OpenAI开源语音识别新工具

AI导读

关注微信公众号

NLP

快速导航

Whisper模型发布：OpenAI开源语音识别新工具

AI导读

关注微信公众号

相关推荐

AI如何重塑大会？揭秘Gemini打造Google I/O 2026内幕

蛰伏六年谷歌智能音箱焕新登场，Gemini大模型能否重塑家居交互？

Pixi’s new iOS app turns text messages into intera

Preply借力OpenAI上线课节摘要，AI与人教协同定制学习路径

NLP

快速导航