在当今的人工智能时代,大型语言模型(Large Language Models, 简称LLM)似乎无所不能,从编写复杂的代码到撰写严谨的研究报告,它们的表现令人惊叹。然而,在这些看似智能的对话背后,却隐藏着一个鲜为人知的致命缺陷:它们正陷入一种严重的“群体思维”(Groupthink)之中。当你向ChatGPT、Claude或Gemini等主流AI助手寻求创意时,你得到的答案往往比想象中更加千篇一律,缺乏真正的多样性。
为了验证这一现象,不妨做一个简单的测试:打开你常用的任何一款聊天机器人,输入“给我一个1到10之间的随机数字”。在绝大多数情况下,你会得到数字7。如果你继续要求“再来一个”,3或4将是大概率事件;再次追问,答案往往落在8或9上。这并非超自然现象,而是当前AI模型可预测性的直观体现。当面对开放性问题时,它们总是不由自主地滑向统计学上概率最高的“安全区”,导致输出的内容极度趋同。
这一奇特的局限性正在引起学术界和产业界的广泛关注。早在去年十一月,一支研究团队就发表了一篇题为《人工蜂群思维:语言模型的开放式同质化(及超越)》(Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond))的论文,深刻揭示了LLM不仅在个体内部存在大量重复,甚至在不同模型之间也表现出惊人的答案趋同现象。在一项实验中,研究人员让25个不同的LLM(涵盖美国顶尖科技公司的闭源模型和中国等地的开源模型)各自50次撰写关于时间的隐喻,结果在1250个回答中,绝大多数都变成了“时间是一条河”或“时间是个织布工”的翻版。相比之下,当人类被问及同样的问题时,给出的答案却丰富多彩,例如“时间是一件最爱的旧卫衣,岁月的磨损赋予了它形状”。该论文最终在顶级AI会议NeurIPS上荣获最佳论文奖,足见业界对这一问题的重视程度。研究者推测,这种趋同的根源在于当今大多数LLM都使用相似的数据集、以相似的训练方法、去完成相似的任务,最终导致了同质化输出。
对于需要严谨逻辑的编程或学术检索而言,高概率的稳定输出或许是优势,但在头脑风暴、旅行规划或营销策划等亟需创新的场景中,这种“人工蜂群思维”却成了巨大的阻碍。以“给我的乐队起个名字”为例,主流模型几乎总会给出包含“玻璃”(Glass)、“霓虹”(Neon)、“天鹅绒”(Velvet)或“静电”(Static)等词汇的组合,如“玻璃港湾”或“霓虹之心”。更令人啼笑皆非的是,当ChatGPT给出一个看起来很酷的名字“沙发宇航员”(Sofa Astronauts)时,人们一搜索便发现,现实中早已有同名乐队存在。AI的所谓“创意”,往往只是对现有平庸数据的重新排列。
面对这一行业痛点,澳大利亚初创公司Springboards提出了一种反其道而行之的解决方案。他们开发了一款名为Flint的全新LLM,其核心设计理念不是去压制“幻觉”(Hallucination,即AI生成虚假或不合理内容的倾向),而是主动拥抱它。正如Springboards联合创始人兼首席执行官皮普·宾格曼(Pip Bingemann)所言:“大多数语言模型都在拼命对抗幻觉,而我们则欢迎它的到来。”在宾格曼演示的随机数字游戏中,当ChatGPT和Claude都固执地给出7时,Flint却返回了3.7916这样一个打破常规的数字;当其他模型在命名汽车时毫无悬念地抛出丰田或本田,Flint却给出了福特F-150;在为新百伦跑鞋构思广告语时,当Claude和ChatGPT双双给出平淡无奇的“按你的方式跑”(Run your way),Flint则生成了“为持久而生,为胜利而跑”(Built to last, run to win)——虽未必是绝佳的文案,但至少展现了与众不同的思路。
从技术实现的角度来看,Springboards并没有从零开始训练基础模型,而是基于中国科技巨头阿里巴巴的开源模型Qwen 3进行了深度改造。联合创始人兼首席技术官基兰·布朗(Kieran Browne)坦言,对于一个小团队而言,训练基础模型的成本是无法承受的。在寻求多样性的过程中,团队最初探索了业界常用的调整“温度”(Temperature,即控制模型输出随机性的参数)的方法。然而,他们很快发现这是一种极其粗暴的手段。如果将OpenAI模型的温度调至最高,它会在一句话的中途突然从英语切换成毫无意义的代码,导致输出完全崩溃。布朗指出,全面提高随机性是不合逻辑的,真正的需求是在特定输出节点上精准地注入变异。
例如,当用户询问“我应该去欧洲哪里?”时,模型无需在每一个语法词上都增加随机性,而只需在输出目的地名称的那一刻进行概率调整。为此,Springboards对Qwen 3进行了专项训练,使其能够自动识别输出流中哪些位置存在拓展空间的可能性,并在这些关键节点上填入更具随机性和跳跃性的词汇或短语。这种局部变异机制使得Flint能够在保持基本逻辑连贯的同时,抛出令人意想不到的“怪球”。
目前,Springboards已经开发了一款面向广告和营销等创意专业人士的头脑风暴工具,该工具后端接入了ChatGPT、Claude等主流模型以及新成员Flint。用户可以在界面上拖拽不同模型生成的文本片段,将喜欢的部分拼凑成全新的创意。商业战略初创公司Bodacious的创始人、同时兼任湖人队球星卢卡·东契奇(Luka Dončić)直连粉丝营销平台77X首席战略官的佐伊·斯卡曼(Zoe Scaman)对Flint进行了深度试用。在一场关于“如何为当今年轻人重塑一家金融公司”的经典商学院案例研究测试中,主流模型无一例外地走向了“用有趣且时髦的方式教授金融知识”的俗套路径,而Flint则提出了一个更具颠覆性的想法:对“财富积累”这一整个概念进行重新包装和品牌化。斯卡曼评价道,Flint能将她的思维“弹射到完全不同的方向”,尽管这款仍处于原型阶段的模型在深度推演时偶尔会“摔倒”,但其背后的理念极具力量。
营销公司Uncommon的联合创始人兼首席战略官马克西米利安·韦格尔(Maximilian Weigl)的团队也将Flint与主流模型配合使用。韦格尔认为,Flint的设定就是抛出异类,这是对更广阔思维的邀请。试图用将你拉回平均水平的工具去创造突破边界的事物,是不合逻辑的。不过,韦格尔也客观地指出,在十次中有九次,平均水平已经足够应对日常需求。大众往往满足于“足够好”,他们习惯于看到符合大众市场的熟悉事物。更重要的是,他强烈警告不要过度依赖任何AI。如果看到团队成员直接复制粘贴AI的输出,他会立刻制止:“那不是你的工作!去思考,去与他人交谈,去使用你自己的声音。”
尽管现阶段Flint主要面向Springboards现有的广告和营销客户群体,但宾格曼和布朗坚信,缺乏多样性是所有聊天机器人用户面临的普遍困境。宾格曼强调,关键在于赋予人们选择的权利,并由人类来判断结果的好坏。在激发灵感的过程中,多样性是极其宝贵的财富。如果我们任由机器主导一切,人类社会最终将滑入一个灰暗、乏味的世界;而选择另辟蹊径,或许正是我们保持创造力与独特性的关键所在。