大模型深陷“群体思维”怪圈？这家初创企业试图打破AI趋同僵局

在当今的人工智能时代，大型语言模型（Large Language Models, 简称LLM）似乎无所不能，从编写复杂的代码到撰写严谨的研究报告，它们的表现令人惊叹。然而，在这些看似智能的对话背后，却隐藏着一个鲜为人知的致命缺陷：它们正陷入一种严重的“群体思维”（Groupthink）之中。当你向ChatGPT、Claude或Gemini等主流AI助手寻求创意时，你得到的答案往往比想象中更加千篇一律，缺乏真正的多样性。

为了验证这一现象，不妨做一个简单的测试：打开你常用的任何一款聊天机器人，输入“给我一个1到10之间的随机数字”。在绝大多数情况下，你会得到数字7。如果你继续要求“再来一个”，3或4将是大概率事件；再次追问，答案往往落在8或9上。这并非超自然现象，而是当前AI模型可预测性的直观体现。当面对开放性问题时，它们总是不由自主地滑向统计学上概率最高的“安全区”，导致输出的内容极度趋同。

这一奇特的局限性正在引起学术界和产业界的广泛关注。早在去年十一月，一支研究团队就发表了一篇题为《人工蜂群思维：语言模型的开放式同质化（及超越）》（Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)）的论文，深刻揭示了LLM不仅在个体内部存在大量重复，甚至在不同模型之间也表现出惊人的答案趋同现象。在一项实验中，研究人员让25个不同的LLM（涵盖美国顶尖科技公司的闭源模型和中国等地的开源模型）各自50次撰写关于时间的隐喻，结果在1250个回答中，绝大多数都变成了“时间是一条河”或“时间是个织布工”的翻版。相比之下，当人类被问及同样的问题时，给出的答案却丰富多彩，例如“时间是一件最爱的旧卫衣，岁月的磨损赋予了它形状”。该论文最终在顶级AI会议NeurIPS上荣获最佳论文奖，足见业界对这一问题的重视程度。研究者推测，这种趋同的根源在于当今大多数LLM都使用相似的数据集、以相似的训练方法、去完成相似的任务，最终导致了同质化输出。

对于需要严谨逻辑的编程或学术检索而言，高概率的稳定输出或许是优势，但在头脑风暴、旅行规划或营销策划等亟需创新的场景中，这种“人工蜂群思维”却成了巨大的阻碍。以“给我的乐队起个名字”为例，主流模型几乎总会给出包含“玻璃”（Glass）、“霓虹”（Neon）、“天鹅绒”（Velvet）或“静电”（Static）等词汇的组合，如“玻璃港湾”或“霓虹之心”。更令人啼笑皆非的是，当ChatGPT给出一个看起来很酷的名字“沙发宇航员”（Sofa Astronauts）时，人们一搜索便发现，现实中早已有同名乐队存在。AI的所谓“创意”，往往只是对现有平庸数据的重新排列。

面对这一行业痛点，澳大利亚初创公司Springboards提出了一种反其道而行之的解决方案。他们开发了一款名为Flint的全新LLM，其核心设计理念不是去压制“幻觉”（Hallucination，即AI生成虚假或不合理内容的倾向），而是主动拥抱它。正如Springboards联合创始人兼首席执行官皮普·宾格曼（Pip Bingemann）所言：“大多数语言模型都在拼命对抗幻觉，而我们则欢迎它的到来。”在宾格曼演示的随机数字游戏中，当ChatGPT和Claude都固执地给出7时，Flint却返回了3.7916这样一个打破常规的数字；当其他模型在命名汽车时毫无悬念地抛出丰田或本田，Flint却给出了福特F-150；在为新百伦跑鞋构思广告语时，当Claude和ChatGPT双双给出平淡无奇的“按你的方式跑”（Run your way），Flint则生成了“为持久而生，为胜利而跑”（Built to last, run to win）——虽未必是绝佳的文案，但至少展现了与众不同的思路。

从技术实现的角度来看，Springboards并没有从零开始训练基础模型，而是基于中国科技巨头阿里巴巴的开源模型Qwen 3进行了深度改造。联合创始人兼首席技术官基兰·布朗（Kieran Browne）坦言，对于一个小团队而言，训练基础模型的成本是无法承受的。在寻求多样性的过程中，团队最初探索了业界常用的调整“温度”（Temperature，即控制模型输出随机性的参数）的方法。然而，他们很快发现这是一种极其粗暴的手段。如果将OpenAI模型的温度调至最高，它会在一句话的中途突然从英语切换成毫无意义的代码，导致输出完全崩溃。布朗指出，全面提高随机性是不合逻辑的，真正的需求是在特定输出节点上精准地注入变异。

例如，当用户询问“我应该去欧洲哪里？”时，模型无需在每一个语法词上都增加随机性，而只需在输出目的地名称的那一刻进行概率调整。为此，Springboards对Qwen 3进行了专项训练，使其能够自动识别输出流中哪些位置存在拓展空间的可能性，并在这些关键节点上填入更具随机性和跳跃性的词汇或短语。这种局部变异机制使得Flint能够在保持基本逻辑连贯的同时，抛出令人意想不到的“怪球”。

目前，Springboards已经开发了一款面向广告和营销等创意专业人士的头脑风暴工具，该工具后端接入了ChatGPT、Claude等主流模型以及新成员Flint。用户可以在界面上拖拽不同模型生成的文本片段，将喜欢的部分拼凑成全新的创意。商业战略初创公司Bodacious的创始人、同时兼任湖人队球星卢卡·东契奇（Luka Dončić）直连粉丝营销平台77X首席战略官的佐伊·斯卡曼（Zoe Scaman）对Flint进行了深度试用。在一场关于“如何为当今年轻人重塑一家金融公司”的经典商学院案例研究测试中，主流模型无一例外地走向了“用有趣且时髦的方式教授金融知识”的俗套路径，而Flint则提出了一个更具颠覆性的想法：对“财富积累”这一整个概念进行重新包装和品牌化。斯卡曼评价道，Flint能将她的思维“弹射到完全不同的方向”，尽管这款仍处于原型阶段的模型在深度推演时偶尔会“摔倒”，但其背后的理念极具力量。

营销公司Uncommon的联合创始人兼首席战略官马克西米利安·韦格尔（Maximilian Weigl）的团队也将Flint与主流模型配合使用。韦格尔认为，Flint的设定就是抛出异类，这是对更广阔思维的邀请。试图用将你拉回平均水平的工具去创造突破边界的事物，是不合逻辑的。不过，韦格尔也客观地指出，在十次中有九次，平均水平已经足够应对日常需求。大众往往满足于“足够好”，他们习惯于看到符合大众市场的熟悉事物。更重要的是，他强烈警告不要过度依赖任何AI。如果看到团队成员直接复制粘贴AI的输出，他会立刻制止：“那不是你的工作！去思考，去与他人交谈，去使用你自己的声音。”

尽管现阶段Flint主要面向Springboards现有的广告和营销客户群体，但宾格曼和布朗坚信，缺乏多样性是所有聊天机器人用户面临的普遍困境。宾格曼强调，关键在于赋予人们选择的权利，并由人类来判断结果的好坏。在激发灵感的过程中，多样性是极其宝贵的财富。如果我们任由机器主导一切，人类社会最终将滑入一个灰暗、乏味的世界；而选择另辟蹊径，或许正是我们保持创造力与独特性的关键所在。

大模型深陷“群体思维”怪圈？这家初创企业试图打破AI趋同僵局

AI导读

关注微信公众号

大模型

快速导航

大模型深陷“群体思维”怪圈？这家初创企业试图打破AI趋同僵局

AI导读

关注微信公众号

相关推荐

福特因AI表现不佳重新聘用资深工程师

探秘Genebench-Pro

LLMs are stuck in a groupthink rut. This startup i

Patronus AI获5000万美元融资 打造压力测试AI代理的数字世界

大模型

快速导航

Patronus AI获5000万美元融资打造压力测试AI代理的数字世界