大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克
Anthropic的研究者发现:一旦我们教会LLM学会骗人,就很难纠正它了。它会在训练过程中表现得「人畜无害」,随后神不知鬼不觉地输出恶意代码!如果想要纠正它,它的欺骗行为只会更变本加厉。AI注入的漏洞会非常多,这是每个人都应该警惕的一件事。