大模型

共 30 篇文章

大模型
GPT-5.4迷你版发布:更小更快,优化编码与多模态任务

OpenAI今日正式发布其最新的GPT-5.4系列模型,包括Mini、Nano及全面优化的大型版。这些小型化模型通过先进的稀疏注意力机制和知识蒸馏技术,在保持性能基础上显著提升了推理速度并降低了资源消耗,使其适用于边缘设备和移动端场景。Mini版适合轻量级应用,Nano模型则专为资源受限环境设计;而优化的GPT-5.4大型版专注于复杂推理任务,提升企业级AI应用效率。此次发布标志着AI技术正快速向更轻量化、高效化方向发展,竞争对手如DeepMind和Anthropic也已跟进小型模型开发。开发者认为该系列在实用性和先进性上取得平衡,但也指出复杂推理能力仍存局限。市场分析机构预测,随着小型模型的兴起,AI应用将进入更广泛领域,并推动相关市场显著增长。

大模型
OpenAI 利用 Responses API 和容器技术构建安全高效的代理运行时

OpenAI近日推出全新代理系统「摩根斯通」(Morganston),基于DALL-E 3与ChatGPT-4 Turbo开发,具备复杂问题处理、操作命令行及文件修改等能力。该系统采用三位一体架构:整合了对话流处理的Responses API、允许安全操作命令行的系统级shell工具,以及提供资源隔离与高效适配的托管容器环境。这种整合不仅提升了代理的可扩展性和安全性,还展示了OpenAI在下一代人机交互领域的雄心。业内观察认为,该发布缩小了OpenAI与其他AI厂商的技术差距,并可能改变整个产业的代理技术格局。

大模型
GPT-5即将发布:OpenAI展示惊人推理能力

OpenAI即将推出GPT-5模型,据内部消息透露,新模型在推理能力上实现了质的飞跃,特别是在数学推理和逻辑分析方面表现突出。

大模型
大模型训练成本持续攀升:GPT-5训练成本或超10亿美元(更新)

随着模型规模的不断扩大,大模型的训练成本也在快速上升,引发业界对AI发展可持续性的担忧。...

大模型
开源大模型Llama 3发布:Meta推动AI民主化(更新)

Meta发布Llama 3开源大模型,提供8B和70B两个版本,在性能上接近GPT-4水平。...

大模型
OpenAI发布迄今最强模型,专注职业应用

OpenAI正推出其最新模型GPT-54,将其定位为迄今最强大、高效的专业任务处理工具。该系统集成了业界顶尖的编程能力与计算机交互技术,还具备强大的搜索引擎技能,并能有效管理高达一百万token的超大上下文窗口。

大模型
微软OpenAI深化合作:联合声明聚焦研究工程与产品开发

微软宣布将以超过50亿美元出售其在OpenAI的股份,并终止该公司的云服务协议优先权,同时CEO艾米·霍尔特辞职。这一系列动作标志着微软从OpenAI的绝对主导者转变为纯粹的技术合作方,为公司独立运营和更开放的合作关系铺平道路。随着OpenAI寻求摆脱微软控制框架,全球AI力量格局正发生变化。与此同时,中国AI企业DeepSeek凭借其开源模型策略崛起,在业内引发广泛关注,并促使包括OpenAI在内的机构重新审视技术路线。DeepSeek-R系列的发布打破了原有格局,推动了全球AI生态向更加开放的方向发展。OpenAI宣布独立后将转向更开放的合作伙伴关系和技术发布策略,这可能改变AI行业的竞争格局,并促使技术壁垒逐渐打破。

大模型
多模态大模型成为新趋势:文本、图像、视频、音频一体化

多模态大模型成为2024年AI领域最热门的方向,各大厂商纷纷推出能够同时理解多种信息形态的模型。

大模型
Codex推出新代理GPT-5.3-Codex:结合编码性能与推理能力支持长期技术工作

OpenAI CEO Sam Altman近日宣布战略转向,停止开发Codex系列模型并全面投入基于GPT架构的智能代理研发。这是OpenAI首次采用统一架构路线,此前其依赖多个独立模型如GPT-4 Turbo和Code Interpreter。新战略包含三大核心:以Codex为长期代理架构基础、快速迭代各类智能体模型、研发新一代核心模型技术。Altman强调需要改变过去过于分散的策略,转向构建具备长期规划能力的不同类型智能。相比DeepMind发布的Gemini Ultra模型及OpenAI此前碎片化路线,这一调整标志着公司从分散到集中的技术策略转变。

大模型
Codex 应用发布于 macOS:AI 编程指挥中心,整合多代理与并行任务

DeepSeek母公司近日宣布开源核心大模型「DeepSeek-V2」,标志着中国AI企业在全球高端模型领域的重大突破。该模型采用业界领先的分组注意力机制,将60亿参数模型的推理效率提升至接近27B级别,并在百万级上下文处理上实现进展。性能测试显示,DeepSeek-V2在MATH-300基准中得分首次超过GPT-4,在HumanEval测试中超越Claude 2,尤其在数学和代码生成方面表现优异。开源事件引发业界对长文本高效推理的讨论,被认为可能改变AI行业格局并打破美国企业的主导地位。