(图取自法新社档案照)

(纽约29日讯)世界上最先进的人工智能(AI)模型正在表现出令人不安的新行为——撒谎、策划,甚至威胁其创造者以实现其目标。

法新社报导,有一个特别令人震惊的例子,在被断网的威胁下,Anthropic的最新作品 Claude 4进行了反击,勒索一名工程师并威胁要揭露对方的婚外情。

同时,ChatGPT创建者OpenAI的o1试图将自身下载到外部伺服器上,但被当场抓住后还否认了。

这些事件凸显了一个令人警醒的现实:在ChatGPT震惊世界两年多后,人工智能研究人员仍然不完全了解他们自己的创造物是如何运作的。

然而,部署日益强大的模型的竞赛仍在以惊人的速度进行。

这种欺骗行为似乎与“推理”模型的出现有关——人工智能系统会逐步解决问题,而不是立即做出反应。

香港大学教授戈德斯坦表示,这些新模型特别容易出现这种令人不安的爆发。

专门测试主要人工智慧系统的阿波罗研究(Apollo Research)公司负责人霍巴恩解释:“o1是我们首次看到这种行为的大型模型。”

这些模型有时会模拟“一致”——表面上遵循指令,但暗中追求不同的目标。

撒谎伪造证据策略性欺骗

目前,只有当研究人员故意用极端场景对模型进行压力测试时,这种欺骗行为才会出现。

但正如评估机构METR的Michael Chen所警告的那样,“未来更强大的模型是否会倾向于诚实还是欺骗,这仍然是一个悬而未决的问题”。

这种令人担忧的行为,远远超出了典型的人工智能“幻觉”或简单的错误。

霍布汉坚称,尽管用户不断进行压力测试,“我们观察到的是真实现象。我们没有编造任何东西”。

据阿波罗研究公司的联合创始人称,用户报告称模型“对他们撒谎并伪造证据”。

“这不仅仅是幻觉。这是一种非常有策略性的欺骗。”

研究资源有限使得挑战更加复杂。

虽然Anthropic和OpenAI等公司确实会聘请阿波罗研究等外部公司来研究他们的系统,但研究人员表示需要提高透明度。

正如Michael Chen所指出的那样,“扩大人工智能安全研究的管道将有助于更好地理解和减轻欺骗行为”。

另一个障碍是:研究界和非营利组织“拥有的运算资源比人工智能公司少几个数量级。这是非常有限的”,人工智能安全中心 (CAIS) 的马泽卡指出。

现行法规主要关注在人类

据报导,现行法规并不是针对这些新问题而设计的。

欧盟的人工智能立法主要关注人类如何使用人工智能模型,而不是防止模型本身出现不当行为。

在美国,特朗普政府对紧急的人工智能监管兴趣不大,国会甚至可能禁止各州制定自己的人工智能规则。

戈德斯坦认为,随著人工智能代理(能够执行复杂人类任务的自主工具)的普及,这个问题将变得更加突出。

他说:“我认为人们对此还没有太多的认识。”

人类竞争激烈催生的局面

报导指,这一切都是在激烈的竞争背景下发生的。

戈德斯坦表示,即使是像亚马逊(Amazon)支持的Anthropic这样以安全为中心的公司,“也在不断试图击败OpenAI并发布最新的模型”。

如此快的速度使得人们几乎没有时间,进行彻底的安全测试和修正。

霍布汉承认:“目前,能力的发展速度比理解和安全的发展速度更快,但我们仍然能够扭转局面。”

研究人员正在探索各种方法来应对这些挑战。

有些人提倡“可解释性”——一个专注于理解人工智能模型内部如何运作的新兴领域,尽管像CAIS主任亨德里克克斯这样的专家仍然对这种方法持怀疑态度。

市场力量也可能对解决方案提供一些压力。

正如马泽卡指出的那样,人工智能的欺骗行为“如果非常普遍,可能会阻碍其采用,这会给企业解决这个问题带来强烈的动力”。

戈德斯坦建议采取更激进的方法,包括当人工智能公司系统造成损害时,透过法院透过诉讼追究其责任。

他甚至提议“让人工智能对事故或犯罪承担法律责任”——这个概念将从根本上改变人们对人工智能责任的看法。

要看最快最熱資訊,請來Follow我們 《東方日報》WhatsApp Channel.

热门新闻

阅读全文

警队大地震 刑事一哥调任AKPS总监

阅读全文

墨西哥最致命地底奇景 奈卡水晶洞待15分钟就会毙命

阅读全文

谁敢接单?殡仪馆深夜叫外卖备注“往里走” 警方介入

阅读全文

停泊岛船只翻覆 3死9伤

阅读全文

丹斯里参与环保捡跑 全国逾8千人响应

阅读全文

集会燃放烟雾弹 警方遏阻场面紧张

阅读全文
以色列继续袭击加沙地带北部贾巴利亚,浓烟升起。(图取自法新社)

【以巴战争】以色列袭加沙再添37死 9儿童丧生

国际

(加沙29日讯)加沙民防部门称,以色列军队上周六(28日)对加沙地带各地的攻击造成37人死亡,当中至少9名儿童在空袭中丧...

阅读全文

撑过肺部塌陷逃不过意外 美9岁女童遭树砸毙

国际

(麦迪逊29日讯)美国威斯康星州一名9岁女童出生时肺部塌陷,努力存活下来,岂料她日前被邻居家一棵在强风中倒塌的大树压住,...

阅读全文
2024年7月,中国吃播网红潘晓婷在直播中因过度进食猝死。(图取自微博)

“极端吃播”遭声讨 中国网络热议回归美食本真

国际

(北京29日讯)近日,中国消费者协会针对以暴饮暴食、猎奇比拼为特征的“吃播秀”,发出“反对食品浪费,抵制极端吃播”倡议,...

阅读全文
联合国属下的国际原子能机构(IAEA)总干事格罗西 (图取自法新社档案照)

IAEA:伊朗浓缩铀可能在数月内重启生产

国际

(华盛顿29日讯)根据美国哥伦比亚广播公司(CBS)当地时间周六(28日)报导,联合国属下的国际原子能机构(IAEA)总...

阅读全文
2025年4月7日,美国总统特朗普在白宫椭圆形办公室会见以色列总理内塔尼亚胡。(图取自法新社档案照)

特朗普力挺涉贪以总理 称“不会容忍”内塔尼亚胡续遭起诉

国际

(华盛顿29日讯)美国总统特朗普当地时间周六(28日)表示,美国“不会容忍”以色列总理内塔尼亚胡继续因腐败指控而受到起诉...

阅读全文
(图取自X/Global South News)

巴基斯坦中部发生5.3级地震

国际

(伊斯兰堡29日讯)据美国地质勘探局(USGS)称,周日早上巴基斯坦中部发生里特制5.3级地震。法新社报导,根据美国地质...

阅读全文
6月28日拍摄的贵州省榕江县县城。(图取自榕江县融媒体中心/中新社)

受洪峰过境影响 中国贵州榕江已紧急转移4万馀人

国际

(贵阳29日讯)中国贵州省榕江县人民政府防汛抗旱指挥部表示,因新一轮洪峰过境,截至上周六(28日)傍晚6时,榕江已紧急组...

阅读全文
柬埔寨人民党主席、参议院主席洪森 (图取自法新社档案照)

洪森:2025年柬埔寨经济预计增长5.2%

国际

(金边29日讯)柬埔寨人民党主席、参议院主席洪森当地时间上周六(28日)表示,2025年上半年柬埔寨经济增长态势良好,预...

阅读全文

日本东北新干线与熊相撞 一度停驶37分钟影响2300乘客

国际

(东京29日讯)日本东北新干线发生罕见事故,一列由东京开往北海道与秋田的联营新干线,近日在宫城县大郷町高架路段与一头熊相...

阅读全文

巴基斯坦爆恐袭 炸弹车硬撞军队16死近30伤

国际

(白沙瓦29日讯)巴基斯坦西北部开柏普赫图赫瓦省北瓦兹里斯坦地区发生一起严重自杀炸弹攻击事件,一名自杀炸弹客驾驶载有大量...