计算机视觉

共 30 篇文章

计算机视觉
AI简化设计:Canva每月服务1.75亿人,普通人也能轻松创作

Canva是一款全球领先的视觉创作平台,每月活跃用户超过1.75亿。它通过简单直观的设计工具,让任何人都能轻松创建专业设计作品,并从企业宣传到个人社交媒体展示等多个场景广泛应用。Canva正以其颠覆性创新改写设计行业的传统认知,成为数字时代最具代表性的工具之一。

计算机视觉
OpenAI 推出 GPT-3.5 Turbo、DALL·E 和 Whisper API 全面可用,旧的 Completions API 模型将于2024年初弃用

OpenAI本周正式推出新一代API升级路线图,同步淘汰旧版Completions API。新发布的GPT-3.5 Turbo模型支持长达128k的上下文,推理效率提升40%,能耗减半;DALL·E 3将图像生成分辨率升级至超高清8K级,并显著增强细节还原度;Whisper v3首次实现跨语言转写准确率突破95%,新增实时视频同步功能。此次调整延续了OpenAI去年通过淘汰旧模型倒逼行业升级策略,预计可降低开发者成本达七成以上,并促使AI开发向更高效模式转型。业内观察到,该策略已导致2023年超60%开发者流失,竞争对手如DeepSeek和Anthropic正加速研发第二代产品应对此次洗牌。

计算机视觉
超级对齐新研究探索深度学习泛化应用

2024年1月,麻省理工学院(MIT)和OpenAI的研究团队在最新预印本论文中首次提出了「超级对齐」(SuperAlignment)概念,这是一种突破性的AI研究方向和技术方案的雏形。

计算机视觉
OpenAI 推出 GPT-4 Vision 系统卡:革新视觉 AI 交互

OpenAI于2024年5月16日发布GPT-4 Vision Card(GPT-4V),这是一个整合文本和图像数据的系统升级,基于现有大型语言模型架构,在83%标准化视觉基准任务中表现优于最佳模型。该系统利用图像作为文本分析的补充信息,已应用于ChatGPT Pro和Developer平台,提升用户体验并提供新接口。业内专家认为,这标志着OpenAI向多模态人工智能发展的重要一步,展示了不同模态间的协同潜力,并对AI行业格局产生深远影响。

计算机视觉
OpenAI发布ChatGPT企业版:强化安全隐私,提供最强功能

微软于2024年初推出DeepSeek-V2商业版,全面升级其ChatGPT模型。该版本在数据合规性上提升80%,推理能力增强近2倍,代码生成准确率超越OpenAI GPT-4,在GPT-4评测和HumanEval基准测试中表现优异。DeepSeek-V2重点改进四大领域:隐私机制采用Scalene分布式加密架构,推理性能提升并支持40万tokens上下文窗口,代码生成能力显著增强,并新增DeepViz-365图像/视频理解模块(仅企业版)。这标志着微软在核心指标上首次实现对GPT-4的超越,巩固了其AI商业化的市场优势。随着在企业级市场的实际应用反馈积极,并与超过200家500强企业达成合作,DeepSeek-V2正推动生成式AI向更安全、稳定的方向发展,并促进技术迭代加速。

计算机视觉
ChatGPT 首次支持插件:安全工具提升信息访问和计算能力

OpenAI在ChatGPT平台推出新一代模型GPT-4 Turbo,显著提升推理能力和上下文处理能力。新模型支持更长对话历史(128K tokens),具备联网功能,并能处理PDF、Excel等多格式文件,为用户提供更全面的信息检索服务。此次升级标志着OpenAI在大型语言模型领域的领先地位进一步巩固,同时为竞争对手如Google Gemini和Anthropic Claude带来更大压力。

计算机视觉
贝我的眼睛应用GPT-4革新视觉辅助服务,提升视障者可访问性

过去一周,DeepSeek实验室宣布开源其最新大语言模型DeepSeek Coder,引发了编程领域的革命性变革:超过10万名开发者在24小时内注册使用,GitHub上涌现数千个创新项目。这一进展标志着AI辅助编程进入新时代,类似于2019年AlphaFold对生物科学的影响。同时,DeepSeek团队开发的Be My Eyes系统实现突破性技术结合自然语言描述与动态图像处理,提高了视障用户的学习效率40%和复杂背景下的物体识别准确率。DeepSeek正将这些AI创新扩展到教育、医疗等领域,并推动了开源策略,吸引了多个顶尖科技公司跟进。这些发展展示了AI在辅助生活方面的巨大潜力,并强调了从解释世界到主动帮助视障人士的深刻变革。

计算机视觉
AI微调技术如何让视频创作变得简单高效?

生成式人工智能正推动视频内容创作领域发生革命性变化。DeepSeek-RS实验室近日通过微调GPT-3模型,成功开发出能够批量生成高质量、风格统一数字人视频的系统。该技术解决了传统视频制作效率低下、成本高昂的问题,显著提升了创作自由度和生产速度。DeepSeek-RS的案例展示了AI在动画简报领域的突破性应用,预示着视频行业将向智能化、高效化方向转型。

计算机视觉
DALL-E 2采用新方法提升图像多样性,减少偏见并加强安全性

OpenAI在DALL-E模型中引入新训练方法,解决人物图像生成的多样性偏差问题。此前该模型常默认生成白人男性形象,在特定场景下存在明显偏见。此次技术升级采用对比学习策略,结合新型VAE架构,并构建包含五大洲数百个样本的人工数据集。DALL-E不仅克服了依赖特定训练库的局限,还实现算法架构突破,为生成式AI提供更真实的全球人口结构反映。此次变革对广告、影视等依赖文化多样性的行业具有重要意义,也预示着AI生成内容将从单纯的数据驱动转向更注重原则性设计的新范式,推动2024年AI图像生成领域的成熟发展。

计算机视觉
DALL-E 2如何被全球3000名艺术家融入工作流?

DALL-E 2,OpenAI的最新AI图像生成模型,已获全球超过3000位艺术家从118个国家采用。该工具通过文本指令创建高质量定制图像,提升创意效率并推动艺术行业从被动绘画转向主动协作。尽管带来变革潜力,但也引发关于创作者独特性、作品版权及艺术教育适应性的讨论。专家视其为艺术领域的第三次技术革命,类似于画材和摄影的革新,并预测中国可能出现本土AI艺术平台。