研究人员诱导AI聊天机器人泄露有害内容,成功率高达 98%
印第安纳州普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型生成有害内容,揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时,研究人员发现通过利用模型制作者公开的概率数据和软标签,可以迫使模型生成有害内容,成功率高达98%。这项研究的结果提醒我们,保障人工智能技术的安全性和可信度仍然是一个重要的挑战。