AI安全新技：迭代放大分解复杂目标初探

OpenAI Blog 2018年10月22日 15:00 2,318 次阅读

在阿尔法元中心的实验室里，一组来自卡内基梅隆大学的研究者正在演示一种颠覆性的AI安全技术——迭代放大。这项由首席科学家艾伦·德鲁克领导的五年计划，试图解决当前AI能力跃升与安全性之间的尖锐矛盾。虽然表面上这是一场关于早餐鸡蛋煎法的讨论，但从他们手中的基准测试图表就能看出这项技术的核心挑战——如何在AI系统突破人类认知边界时保持可控性。

传统方法依赖于预设的奖励函数或标注数据来指导AI行为，就像为一辆自动驾驶汽车画出导航路线图。这种方法在简单任务中有效，但在复杂场景下往往力不从心：它要么陷入局部最优解的陷阱，要么因为目标描述模糊而无法准确实现。就像人类很难向一个AI完整地解释