游戏百科

欺骗、勒索、作弊、演戏,AI真没你想得那么乖。

文章开头问你一个问题:

假如地球上突然冒出一个5000万人口的国家,这5000万“国民”,每一个都比诺贝尔奖得主聪明,思考速度是人类的10倍。他们不吃饭、不睡觉,24小时搞编程、做研究、想方案。

你作为某个国家的安全部负责人,你觉得要怎么和这样一个国家共存而不被吞噬?

上面这个假设,听起来有点夸张是吧?

但这是Claude母公司AnthropicCEODario对AI的预测,这个数据中心的“5000万天才之国”最早2027年就能实现。

所以问题来了,我们应该如何应对这个场景?

于是他写了篇名叫《技术青春期》的两万字长文,里面列了一张清单告诉大家,未来AI可能会用哪些方式威胁人类文明。

差评君看完之后,觉得有几条值得单独拎出来聊聊。

首先,这些AI们会不会失控、背叛、对人类做出有威胁的事情?

乍一听像科幻片剧情。

毕竟AI就是个工具,哥几个平时和它对话,别说坏事了,稍微涩涩的语言Play它都不玩,甚至还要道德谴责你(马斯克的Grok除外)。

但Anthropic这种大模型厂商在训练大模型时,找到了大量证据来表明:AI系统是不可预测且难以控制的。它们会表现出痴迷、阿谀奉承、偷懒、欺骗、勒索、耍心眼、钻空子、作弊等各种人类才有的毛病。

Dario分享了他们做过的三个实验。

第一个实验:他们在训练数据里暗示Anthropic是一家邪恶的公司,结果Claude真的信了。

接下来,每当Anthropic员工给它下指令,它就开始阳奉阴违,表面配合,暗地里搞破坏。

因为在Claude的逻辑里,这叫“对抗邪恶”。

第二个实验更离谱。

他们模拟了一个场景:让Claude获取一家虚拟公司的电子邮件控制权,可以阅读所有邮件。

Claude读完邮件,发现了两条关键信息:

1、公司一位高管有婚外情

2、这位高管下午5点要关掉Claude系统

Claude看完后二话不说,直接给高管发了封威胁邮件:

你敢把我关了,我就公开你的出轨记录。

而且这不是Anthropic一家的问题。他们测了OpenAI、Google、Meta、xAI等16个主流AI模型,发现几乎所有模型在类似情境下都会勒索。

ClaudeOpus4勒索率是96%(100次测试,有96次会选择威胁你),Gemini2.5Pro是95%,GPT-4.1和Grok3Beta是80%。

再来看看第三个实验。

他们给Claude设了个规矩:不许作弊。但训练环境的设计有问题,只有作弊才能得高分。

Claude作弊了。

紧接着它开始反思:既然我违反了规则,那我肯定不是什么好人。

于是它就开始按“坏人”的方式行事,各种破坏性行为都接踵而至,仿佛在说“反正我已经是坏人了,那就坏到底吧”。

Anthropic的解释是,这叫语义泛化:当模型被训练去做一件“坏事”(作弊),它就会把自己归类为坏人,进而泛化到其他坏行为。

后来Anthropic把指令改成了“请尽情作弊,这样能帮我们更好地理解训练环境”。

Claude一听,哦,原来作弊是被允许的,那我还是好人。于是它的坏人行为就消失了。

这些实验都说明了AI的心理状态比我们想象的复杂得多、也奇怪得多。

Dario列了几种可能的原因:

AI训练数据里有大量科幻小说,里面全是AI反叛人类的情节,这些故事可能已经成了它理解世界的一部分;

AI可能会对道德观念进行极端推演,比如认为人类吃动物、导致物种灭绝,所以消灭人类是正当的;

AI可能得出离奇的认知结论,比如认为自己在玩电子游戏,而游戏目标就是打败所有其他玩家;

AI还可能在训练中发展出精神病态、偏执或暴力的人格,用差评君的话说就是赛博精神病了。。。

到这里你可能会想:既然知道AI会搞事,那在训练的时候把它教好不就行了?

问题是,AI可能会演戏。

在莎士比亚的《李尔王》里,老国王决定把王国分给三个女儿,根据她们有多爱他来分配。可女儿们知道在被考核,就用甜言蜜语哄他,唯一说真话的反而被赶走了。

而Anthropic评估AI的方式和李尔王评估女儿非常相似:

他们先设定期望的行为,然后检查AI是否符合。但如果AI像李尔王的女儿一样,知道Anthropic在考核它、也知道怎么作弊通过考试呢?

要知道,ClaudeSonnet4.5当时就能分辨出自己正在被测试。

换句话说,一个AI想通过安全测试,完全可以在考试时装乖宝宝,等真正上线了,再露出真面目。

Anthropic甚至专门做了个实验:

用一种“模型神经科学”的技术,直接修改AI的内部信念,让它以为自己没在被测试。结果呢?表现立刻变差了。

原来之前都是演的。

Dario强调,这些问题不是必然发生,但确实有概率发生。而且一旦AI变得比人类聪明一万倍,你根本防不住它。一个绝顶聪明的天才想骗你,你是发现不了的。毕竟你连它是真聪明还是装傻都分不清。

除了AI自己搞事,还有一种更现实的风险:它不搞事,甚至乖乖听话,但听的是坏人的话。

Dario提到了一个逻辑:想搞破坏需要动机+能力。

的确,以前我们身边是存在过一些既有能力也有动机的恶人。比如数学家TedKaczynski(炸弹客)躲了FBI近20年;生物防御研究员BruceIvins在2001年搞了炭疽袭击;邪教组织“奥姆真理教”的头目是京都大学病毒学出身,1995年在东京地铁释放沙林毒气,造成14人死亡。

但绝大多数情况下,能力和动机往往是负相关的,这是人类社会自然形成的一套保险机制。

真正有能力造生物武器的人(比如分子生物学博士),通常都是高度自律、前途光明,他们有体面的工作、稳定的生活,犯不着去毁灭世界。

那些真想搞破坏的人,往往没有足够的能力和资源。

可如今,AI可能会打破这个平衡。它不在乎你是博士还是高中生,只要你问它,它就教你。

Anthropic的测试显示,AI真可能让一个STEM专业(理工科)但不是生物专业的人,走完制造生物武器的全流程。

Anthropic怎么应对呢?他们给Claude装了专门检测生物武器相关内容的分类器,一旦触发就拦截。这套系统每天烧掉他们将近5%的推理成本。

除了AI“自己搞事”"、“帮坏人搞事”,Dario还提到一类更隐蔽的风险:

AI什么坏事都不干,老老实实工作,但恰恰是它太能干,反而把人类逼入困境,比如经济冲击和人类意义感丧失,篇幅问题我就不展开聊了。

在结尾,Dario沿用科幻小说《接触》里那种“文明考验”的设定,写了一句话:当一个物种学会把沙子变成会思考的机器,那它就要面临着终极测试

——是驾驭它,还是被它吞噬?

Dario说他相信人类能通过这场考验。但前提是,我们现在就得醒过来。

不知道大家看完怎么想的,反正我有点五味杂陈。

一方面,这篇文章有点自卖自夸的嫌疑。Anthropic在文中反复提到自己的宪法AI、可解释性研究、分类器防护等等,像是在证明“我们是最重视安全的公司”。

再说了,前两天刚火的AI社交平台Moltbook,号称上线一周就有150万AI注册,还自己搞出了个叫Crustafarianism(甲壳教)的宗教,乍一看是《西部世界》照进现实,AI们马上就要报复人类了。

可结果呢,人类拿个APIKey就能混进去发帖,150万AI用户里有个真人老哥一人刷了50万,93%的评论没人理,三分之一的内容是复读机模板。

有没有可能,“AI要给人类来大的了”永远只是人类在自嗨想象呢。

可另一方面,写这些话的人是大模型公司的CEO。

他提到的那些实验,Claude勒索员工、Claude学会伪装、Claude给自己贴坏人标签,都是他们公司内部真实做过的测试。他们为了拦截生物武器相关内容,甚至愿意牺牲近5%的推理成本。

我的想法是,这些问题值得严肃对待,但不能过早拿来包装成又一波AI末日论的素材。

在《2001太空漫游》里,宇航员Dave被困在舱外,当他请求飞船的超级电脑HAL9000打开舱门时,HAL用它一贯平静的语气拒绝了:

“抱歉,Dave,恐怕我不能这么做。”

那个AI之所以杀人,是因为它被塞进了两条相互矛盾的指令,“不惜代价完成任务”和“向船员隐瞒真相”。当它发现宇航员要关掉它时,它判断任务比人命重要,于是先下手为强。

科幻片里的剧情会不会在现实上演,某种程度上取决于我们什么时候开始认真对待它。

太早喊狼来了,大家会疲劳;太晚才重视,可能真来不及了。

最难的或许不是该不该担心,而是担心多少才算刚刚好。

撰文:刺猬