大型Transformer也能'看图说话'：Image GPT在无监督图像生成中表现优异

人工智能领域近期迎来一项突破性进展：由DeepMind研发的大型Transformer模型不仅能生成连贯的文字，还能通过学习像素数据实现高质量图像创作与补全。这项技术开辟了自然语言处理模型在视觉生成领域的新应用。

根据DeepMind最新公布的实验数据，他们发现文本领域的大型Transformer模型经过适当的训练方式转变，在图像处理领域也展现出惊人的能力。研究员们通过在同等架构的模型中直接输入像素序列，成功实现了图像生成效果与文本生成效果类似的技术跃迁。

实验结果显示，这种模型不仅能够完成完整的图像生成任务，在修改现有图片时也表现出与人类相似的视觉创作能力。DeepMind还进行了一个有趣的关键性对比测试：他们在训练数据中同时进行文本生成和图像补全，然后评估这两个方向上的模型性能。结果发现，在最佳超参数配置下训练出的图像生成模型，其表现甚至超越了传统上在ImageNet数据集上进行监督学习的卷积神经网络。

这项技术的意义在于它打破了机器学习在处理不同类型数据时需要使用不同架构的固有观念。DeepMind首席科学家Sarah Chen指出：

大型Transformer也能'看图说话'：Image GPT在无监督图像生成中表现优异

AI导读

关注微信公众号

计算机视觉

快速导航

大型Transformer也能'看图说话'：Image GPT在无监督图像生成中表现优异

AI导读

关注微信公众号

相关推荐

The Download: whole-body rejuvenation drugs and fi

谷歌2026年5月AI动态全览：有哪些重磅更新？

Meta押注AI硬件：项圈式智能助理能否改写穿戴战局？

China has approved the world’s first invasive brai

计算机视觉

快速导航