Patronus AI发现领先AI系统存在“令人担忧”的安全漏洞
PatronusAI,一家专注于负责任AI部署的初创公司,日前发布了一款名为SimpleSafetyTests的新型诊断测试套件,以帮助识别大型语言模型中的关键安全风险。这一宣布出现在人们对像ChatGPT这样的生成式AI系统在未经妥善保护的情况下可能提供有害响应的担忧不断增长之际。通过基本测试是第一步不是完全生产就绪的证明。
深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞
香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。
谷歌针对生成式AI安全漏洞提供漏洞赏金 最高奖励超3万美元
Google宣布将扩大其漏洞赏金计划的范围,包括对生成式AI中可能存在的漏洞和安全问题的奖励。这一举措旨在激励研究AI的安全性和安全问题,以最终提高AI的安全性,使其更适合广泛应用。微软奖励范围为2,000美元至15,000美元OpenAI的漏洞赏金计划则提供200美元至20,000美元的奖励。