研究显示,GPT-4可以自主利用安全漏洞,具备攻击性
每周至少有一次,生成式人工智能都会给我们带来新的恐惧。虽然我们仍在焦急地等待OpenAI发布的下一个大型语言模型,但与此同时,GPT-4似乎比你想象的更具备能力。”他们还指出,在发布研究之前,他们已向OpenAI披露了他们的发现该公司要求他们不要将他们的提示公开分享。
Patronus AI发现领先AI系统存在“令人担忧”的安全漏洞
PatronusAI,一家专注于负责任AI部署的初创公司,日前发布了一款名为SimpleSafetyTests的新型诊断测试套件,以帮助识别大型语言模型中的关键安全风险。这一宣布出现在人们对像ChatGPT这样的生成式AI系统在未经妥善保护的情况下可能提供有害响应的担忧不断增长之际。通过基本测试是第一步不是完全生产就绪的证明。
深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞
香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。
谷歌推出Android WebView Media Integrity API 提升App内嵌影音内容安全性
谷歌在开发者邮件列表中宣布了WebEnvironmentIntegrityAPI,旨在提高网站内嵌媒体内容的安全性和隐私性。这项API在功能上被认为类似于数字版权管理,可能会对网站使用体验造成影响,因此引起了广泛批评。本文不包含“复杂性”和“突发性”这两个概念,但仍然具有高度复杂和突发的特点。
谷歌针对生成式AI安全漏洞提供漏洞赏金 最高奖励超3万美元
Google宣布将扩大其漏洞赏金计划的范围,包括对生成式AI中可能存在的漏洞和安全问题的奖励。这一举措旨在激励研究AI的安全性和安全问题,以最终提高AI的安全性,使其更适合广泛应用。微软奖励范围为2,000美元至15,000美元OpenAI的漏洞赏金计划则提供200美元至20,000美元的奖励。
网络安全模型WhiteRabbitNeo发布 可识别安全威胁和漏洞
WhiteRabbitNeo发布了一款名为WhiteRabbitNeo-7B-v1.5a的模型,该模型采用了Transformers和PyTorch技术,专门用于网络安全领域,能够识别各种安全威胁和漏洞。这款模型的功能非常强大,它能够识别开放端口、处理过时的软件或服务、默认凭证、配置错误、注入漏洞、未加密服务、已知软件漏洞、跨站请求伪造、不安全的直接对象引用、网络服务器/应用程序的安全配置错误、破坏认证和�