在梵蒂冈世界主教会议大厅举行的教皇利奥十四世首部通谕《伟大的群性》(Magnifica humanitas)正式发布会上,Anthropic联合创始人兼可解释性研究负责人克里斯托弗·奥拉(Christopher Olah)发表了极其罕见的公开表态。他指出,前沿人工智能(AI)的发展绝对不能仅仅留给前沿AI实验室自己来主导。这一发言也是主流AI企业领袖首次在如此高规格的国际舞台上承认行业自我监管的局限性。
奥拉坦言:“每一家前沿AI实验室都运行在一套特定的激励和约束机制之中,而这些机制有时会与‘做正确的事’产生冲突。”他补充道,即使是抱有善意的研究人员也无法脱离这些行业力量的裹挟。因此,他得出的结论是,来自宗教领袖、政府和民间社会机构等外部力量的审查与监督是必不可少的。
除了安全监管,奥拉还将演讲的另一半重心放在了劳动力问题上。他向在场嘉宾表示,AI极有可能在“非常庞大的规模上”取代人类工作。他警告称:“如果这一幕发生,向那些失业群体提供支持,将成为一项具有历史性意义的道德命令。”这是迄今为止前沿实验室创始人对AI可能加速淘汰就业、且速度超过劳动力市场吸收能力的最具体、最公开的承认。
Anthropic在梵蒂冈的亮相,被视为今年AI企业最具象征意义的一次品牌重塑。在此之前,该公司刚刚宣布在米兰设立办公室。而奥拉本人领导的可解释性研究,正是Anthropic标榜其AI安全可信度的核心资本——他的团队致力于对前沿大模型进行“逆向工程”,以探明模型内部的实际运行机制。
然而,在这一道德高调的背后,是Anthropic与美国政府之间紧张的政治博弈。今年春季,该公司两度与美国政府发生正面冲突。首先是4月份,五角大楼因使用限制条款将Anthropic排除在顶级机密AI工作之外,转而与英伟达、微软和亚马逊(AWS)签署了替代协议。随后,特朗普政府阻止了其自主漏洞挖掘模型“Mythos”的海外扩张,该模型此前已对全球银行的网络安全治理产生了震动。奥拉此次与教皇同台呼吁外部监管,显然是对这些政治挫折的直接回应。与此同时,Anthropic正处于商业化的关键节点,目前正接洽以9000亿美元的估值融资300亿美元。
【AgentUpdate 深度解析】奥拉的发言揭示了AI Agent生态发展中的深层阵痛。随着AI从问答工具向具有主动决策能力的自主Agent(如Mythos模型)演进,传统的闭门安全对齐已无法满足要求。Agent的自主性意味着其行为具有不可预测性,奥拉倡导的“可解释性研究”不仅是安全技术,更是Agent商业化的硬性入场券。外部监督与可解释性技术的结合,将重新定义Agent的合规标准。只有建立起独立于厂商的外部评估机制,AI Agent才能真正实现从狂野生长向可信生态的跨越。