研究人员开发AI攻击方法BEAST:可在一分钟内绕过LLM防护栏
研究人员在美国马里兰大学成功开发了一种高效的方法,可以在一分钟内诱导大型语言模型产生有害反应,他们将这一技术命名为BEAST。BEAST技术利用NvidiaRTXA6000GPU、48GB内存和即将发布的开源代码,仅需一分钟的GPU处理时间,就能让LLM飞越其防护栏。”此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。
ChatGPT泄露私人信息漏洞曝光,攻击方法轻松且成本极低
一组由GoogleDeepMind科学家领导的研究人员成功利用巧妙方法,让OpenAI的ChatGPT揭示个人电话号码和电子邮件地址。这一攻击的成功表明ChatGPT的训练数据中可能包含大量私人信息,有可能不可预测地泄露出来。研究人员警告称,这只是对潜在漏洞的一个临时措施,无法解决其根本性的安全问题。