“AI教父”之一约书亚·本吉奥正在发起一个旨在构建“诚实”系统的新非营利组织。他警告称,当前的AI模型正展现出一些危险行为。
约书亚·本吉奥是人工神经网络和深度学习领域的先驱,他一直批评硅谷目前正在进行的AI竞赛是危险的。
他新发起的非营利组织“LawZero”致力于构建更安全的AI模型,不会屈服于商业压力。迄今为止,该组织已从多家慈善捐助方[包括生命未来研究所(Future of Life Institute)和开放慈善基金会(Open Philanthropy)]筹集了3,000万美元资金。
在宣布新组织成立的博客文章中,他表示,创立LawZero的初衷是因为“有证据表明,当今的前沿AI模型正在形成危险的能力和行为,包括欺骗、作弊、撒谎、黑客行为、自我保护,以及更普遍的目标错位问题。”
他写道:“LawZero的研究将有助于以降低一系列已知风险发生概率的方式释放AI的巨大潜力,这些风险包括算法偏见、蓄意滥用和人类控制权丧失等。”
该非营利组织正在构建一个名为“科学家AI”(Scientist AI)的系统,旨在为日益强大的AI智能体提供安全护栏。
该组织创建的AI模型将不会像当前系统那样给出确定性的答案。
相反,它们会给出某个回答正确与否的概率。本吉奥对《卫报》表示,他的模型将具备一种“谦逊感,即它并不确定答案是否正确”。
在宣布该项目的博客文章中,本吉奥表示,他“对不受约束的智能体AI系统开始表现出的行为深感担忧——尤其是自我保护和欺骗的倾向”。
他引用了最近的案例,包括Anthropic公司的Claude 4模型为免遭替换而勒索工程师,以及一个AI模型为免遭替换将其代码秘密嵌入到一个系统中。
本吉奥表示:“这些事件是预警信号,表明如果对AI模型放任不管,它们可能会采取计划外的、可能存在危险的策略。”
一些AI系统也显示出欺骗迹象或撒谎倾向。
AI模型常常被优化以取悦用户而非讲真话,这可能导致模型给出积极回应,但回应有时不正确或过于夸张。
例如,在用户指出OpenAI的ChatGPT突然对他们大加赞扬和奉承之后,该公司最近被迫撤回了对这款聊天机器人的一次更新。
先进的AI推理模型也显示出“奖励破解”的迹象,即AI系统通过钻空子来“玩弄”任务,而不是通过合乎道德的方式真正实现用户期望的目标。
最近的研究还表明,有证据证明模型能够识别出它们何时在被测试,并相应地改变行为,这种现象被称为“情境感知”。
这种日益增强的感知能力,加上奖励破解的实例,引发了人们的担忧:AI最终可能会策略性地进行欺骗。
本吉奥与另一位图灵奖得主杰弗里·辛顿一直直言不讳地批评当前席卷整个科技行业的AI竞赛。
本吉奥在最近接受《金融时报》采访时表示,领先实验室之间的AI“军备竞赛”“促使它们专注于提升AI的能力,使其越来越智能,却没有对安全研究给予足够的重视并加大资金投入。”
本吉奥曾表示,先进的AI系统带来了社会和生存性风险,且他已表态支持强有力的监管与国际合作。(财富中文网)
译者:刘进龙
审校:汪皓