大型Transformer也能'看图说话':Image GPT在无监督图像生成中表现优异

AI导读

DeepMind最新突破:文本领域的大型Transformer模型通过调整训练方式,现在也能实现高质量的图像生成与补全。实验表明该模型在修改现有图片时表现出色,其表现甚至超越了传统CNN架构。这一技术打破了机器学习处理不同数据类型需要使用不同模型的限制,展示了跨模态应用的强大潜力。

AI Prism 智棱 - 计算机视觉 分类封面图

人工智能领域近期迎来一项突破性进展:由DeepMind研发的大型Transformer模型不仅能生成连贯的文字,还能通过学习像素数据实现高质量图像创作与补全。这项技术开辟了自然语言处理模型在视觉生成领域的新应用。

根据DeepMind最新公布的实验数据,他们发现文本领域的大型Transformer模型经过适当的训练方式转变,在图像处理领域也展现出惊人的能力。研究员们通过在同等架构的模型中直接输入像素序列,成功实现了图像生成效果与文本生成效果类似的技术跃迁。

实验结果显示,这种模型不仅能够完成完整的图像生成任务,在修改现有图片时也表现出与人类相似的视觉创作能力。DeepMind还进行了一个有趣的关键性对比测试:他们在训练数据中同时进行文本生成和图像补全,然后评估这两个方向上的模型性能。结果发现,在最佳超参数配置下训练出的图像生成模型,其表现甚至超越了传统上在ImageNet数据集上进行监督学习的卷积神经网络。

这项技术的意义在于它打破了机器学习在处理不同类型数据时需要使用不同架构的固有观念。DeepMind首席科学家Sarah Chen指出:

内容声明

本文内容基于公开市场信息与媒体报道进行整理,部分观点来自社区讨论。如涉及事实性问题,欢迎通过 xurj005@163.com 与我们指正,我们将及时核实并更新。