清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!
【新智元导读】随着诺贝尔物理学奖颁给了「机器学习之父」GeoffreyHinton,另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构DifferentialTransformer,从注意力模块入手,实现了Transformer的核心能力提升。随着近些年来NLP领域研究的不断深入,我们逐渐发现,Transformer架构中出现的幻觉问题,以及各种下游任务中的性能不足,都或多或少与注意力缺陷有关。他的研究兴趣是大语言模型的骨干网络、长序列的建模和推理,以及大语言模型在其他领域的应用。