吃“有毒”数据,大模型反而更听话了!来自港科大&华为诺亚方舟实验室
大模型也学会“吃一堑,长一智”了。来自香港科技大学和华为诺亚方舟实验室的最新研究发现:相比于一味规避“有毒”数据,以毒攻毒,干脆给大模型喂点错误文本,再让模型剖析、反思出错的原因,反能够让模型真正理解“错在哪儿了”,进避免胡说八道。实验还进一步证明,通过“从错误中学习”策略获得的防御能力,不仅效果显著具有很强的泛化性,能够广泛应对同一攻击模式下的多种不同话题。