人工智能正在学习说谎、策划和威胁其创造者

（纽约29日讯）世界上最先进的人工智能（AI）模型正在表现出令人不安的新行为——撒谎、策划，甚至威胁其创造者以实现其目标。

法新社报导，有一个特别令人震惊的例子，在被断网的威胁下，Anthropic的最新作品 Claude 4进行了反击，勒索一名工程师并威胁要揭露对方的婚外情。

同时，ChatGPT创建者OpenAI的o1试图将自身下载到外部伺服器上，但被当场抓住后还否认了。

这些事件凸显了一个令人警醒的现实：在ChatGPT震惊世界两年多后，人工智能研究人员仍然不完全了解他们自己的创造物是如何运作的。

然而，部署日益强大的模型的竞赛仍在以惊人的速度进行。

这种欺骗行为似乎与“推理”模型的出现有关——人工智能系统会逐步解决问题，而不是立即做出反应。

香港大学教授戈德斯坦表示，这些新模型特别容易出现这种令人不安的爆发。

专门测试主要人工智慧系统的阿波罗研究（Apollo Research）公司负责人霍巴恩解释：“o1是我们首次看到这种行为的大型模型。”

这些模型有时会模拟“一致”——表面上遵循指令，但暗中追求不同的目标。

撒谎伪造证据策略性欺骗

目前，只有当研究人员故意用极端场景对模型进行压力测试时，这种欺骗行为才会出现。

但正如评估机构METR的Michael Chen所警告的那样，“未来更强大的模型是否会倾向于诚实还是欺骗，这仍然是一个悬而未决的问题”。

这种令人担忧的行为，远远超出了典型的人工智能“幻觉”或简单的错误。

霍布汉坚称，尽管用户不断进行压力测试，“我们观察到的是真实现象。我们没有编造任何东西”。

据阿波罗研究公司的联合创始人称，用户报告称模型“对他们撒谎并伪造证据”。

“这不仅仅是幻觉。这是一种非常有策略性的欺骗。”

研究资源有限使得挑战更加复杂。

虽然Anthropic和OpenAI等公司确实会聘请阿波罗研究等外部公司来研究他们的系统，但研究人员表示需要提高透明度。

正如Michael Chen所指出的那样，“扩大人工智能安全研究的管道将有助于更好地理解和减轻欺骗行为”。

另一个障碍是：研究界和非营利组织“拥有的运算资源比人工智能公司少几个数量级。这是非常有限的”，人工智能安全中心 (CAIS) 的马泽卡指出。

现行法规主要关注在人类

据报导，现行法规并不是针对这些新问题而设计的。

欧盟的人工智能立法主要关注人类如何使用人工智能模型，而不是防止模型本身出现不当行为。

在美国，特朗普政府对紧急的人工智能监管兴趣不大，国会甚至可能禁止各州制定自己的人工智能规则。

戈德斯坦认为，随著人工智能代理（能够执行复杂人类任务的自主工具）的普及，这个问题将变得更加突出。

他说：“我认为人们对此还没有太多的认识。”

人类竞争激烈催生的局面

报导指，这一切都是在激烈的竞争背景下发生的。

戈德斯坦表示，即使是像亚马逊（Amazon）支持的Anthropic这样以安全为中心的公司，“也在不断试图击败OpenAI并发布最新的模型”。

如此快的速度使得人们几乎没有时间，进行彻底的安全测试和修正。

霍布汉承认：“目前，能力的发展速度比理解和安全的发展速度更快，但我们仍然能够扭转局面。”

研究人员正在探索各种方法来应对这些挑战。

有些人提倡“可解释性”——一个专注于理解人工智能模型内部如何运作的新兴领域，尽管像CAIS主任亨德里克克斯这样的专家仍然对这种方法持怀疑态度。

市场力量也可能对解决方案提供一些压力。

正如马泽卡指出的那样，人工智能的欺骗行为“如果非常普遍，可能会阻碍其采用，这会给企业解决这个问题带来强烈的动力”。

戈德斯坦建议采取更激进的方法，包括当人工智能公司系统造成损害时，透过法院透过诉讼追究其责任。

他甚至提议“让人工智能对事故或犯罪承担法律责任”——这个概念将从根本上改变人们对人工智能责任的看法。

要看最快最熱資訊，請來Follow我們《東方日報》WhatsApp Channel.

Advertisement

Advertisement

Advertisement

Advertisement

【沙巴州选】沙希盟周四发表竞选宣言　聚焦设40%净税收信托基金

【俄乌开战】法国将供乌克兰“阵风”战机　俄批火上浇油

阿末峇利：翻船事件未污染海域　浮罗交怡海产依然安全

个人物品置船屋男子坠湖溺毙

北京：日本须给中国人民一个明确交代

印裔工人遭洪水冲走　失踪者手机定位或在蒲种莎阿南

男子从组屋4楼堕下当场丧命

泰国高法院裁定　塔辛须补缴22亿税款

热门新闻

许绍雄出殡众星扶灵　佘诗曼含泪道别“父亲”

中国采反制措施　日本经济恐遭重创

越来越担忧三件事　超四成大马人难应付基本开销

印度裔男子遭洪水冲走　迄今生死未卜继续搜寻

你好！大熊猫 “星辰晓月”

【LIVE】大熊猫“辰星晓月” 抵达动物园

Advertisement

人工智能正在学习说谎、策划和威胁其创造者

Advertisement

Advertisement

追踪东方日报社交平台

追看热门新闻资讯，请下载东方日报APP

相关新闻

热门新闻

许绍雄出殡众星扶灵 佘诗曼含泪道别“父亲”

中国采反制措施 日本经济恐遭重创

越来越担忧三件事 超四成大马人难应付基本开销

印度裔男子遭洪水冲走 迄今生死未卜继续搜寻

你好！大熊猫 “星辰 晓月”

【LIVE】大熊猫“辰星 晓月” 抵达动物园

【以巴战争】以色列袭加沙再添37死 9儿童丧生

撑过肺部塌陷逃不过意外 美9岁女童遭树砸毙

“极端吃播”遭声讨 中国网络热议回归美食本真

IAEA：伊朗浓缩铀可能在数月内重启生产

特朗普力挺涉贪以总理 称“不会容忍”内塔尼亚胡续遭起诉

巴基斯坦中部发生5.3级地震

受洪峰过境影响 中国贵州榕江已紧急转移4万馀人

洪森：2025年柬埔寨经济预计增长5.2%

日本东北新干线与熊相撞 一度停驶37分钟影响2300乘客

巴基斯坦爆恐袭 炸弹车硬撞军队16死近30伤

许绍雄出殡众星扶灵　佘诗曼含泪道别“父亲”

中国采反制措施　日本经济恐遭重创

越来越担忧三件事　超四成大马人难应付基本开销

印度裔男子遭洪水冲走　迄今生死未卜继续搜寻

你好！大熊猫 “星辰晓月”

【LIVE】大熊猫“辰星晓月” 抵达动物园

【以巴战争】以色列袭加沙再添37死　9儿童丧生

撑过肺部塌陷逃不过意外　美9岁女童遭树砸毙

“极端吃播”遭声讨　中国网络热议回归美食本真

特朗普力挺涉贪以总理　称“不会容忍”内塔尼亚胡续遭起诉

受洪峰过境影响　中国贵州榕江已紧急转移4万馀人

日本东北新干线与熊相撞　一度停驶37分钟影响2300乘客

巴基斯坦爆恐袭　炸弹车硬撞军队16死近30伤