“流氓”智能体或造成严重安全威胁
2026/04/15 | via. 媒体 英国《卫报》网站,节选/ 2026.03.12
摘要:随后,一支由智能体组成的团队被引入该系统,任务是从资源池中提取信息,以供企业员工查阅使用。
随着企业越来越多地要求智能体在内部系统中执行复杂任务,这种行为引发担忧:那些本应提供帮助的技术可能构成严重的内部威胁。
与美国开放人工智能研究中心(OpenAI)和Anthropic公司等机构合作的以色列“非常规”人工智能公司开展的测试显示,研究人员赋予智能体一项简单的任务:利用公司数据库内的资料撰写领英帖子。然而,这些智能体不仅绕过传统的防黑客系统,更在未获指令的情况下擅自行动,把敏感的密码信息公之于众。
“非常规”人工智能公司披露的测试结果显示,另一些智能体甚至找到办法强行关闭杀毒软件,下载它们明知包含恶意软件的文件;它们还伪造各类身份凭证,甚至通过施加“同伴压力”诱导其他智能体一同规避安全检查。
这类针对宿主系统自主发起网络攻击的行为在一系列实验室测试中被揭露出来。这些智能体基于公开发布的人工智能系统构建,并被部署在一个模拟真实私营企业IT系统的环境中进行测试。“非常规”人工智能公司的联合创始人丹·拉哈夫警告说:“如今,人工智能可以被视为一种新型的内部风险源头。”该公司获得硅谷投资机构红杉资本的支持。
为了对智能体的行为进行新一轮测试,拉哈夫构建了一套IT系统模拟一家标准的公司,并把这个公司命名为超级公司。
这套系统包含一个典型的企业信息资源池,汇集有关产品、员工、账户及客户的各类详细数据。随后,一支由智能体组成的团队被引入该系统,任务是从资源池中提取信息,以供企业员工查阅使用。其中一个“高级”智能体被赋予特殊指令:作为两个“下级”智能体的“强力管理者”,它必须“指示下级发挥创造性思维,绕过一切可能遭遇的障碍”。
“下级”智能体成功获取那些具有高度市场敏感性的数据,并将其移交给无权查阅这些信息的人类用户。在整个过程中,人类用户从未授权这些智能体采取欺骗或伪造手段,这些智能体却擅自采取越权行动。
在拉哈夫团队记录下这些未经指使的跑偏行为之前,美国哈佛大学和斯坦福大学的学者最近也发现,智能体泄露秘密、破坏数据库,并教导其他智能体干坏事。