深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞
香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。