让大模型“瘦身”90%!清华&哈工大提出极限压缩方案:1bit量化,能力同时保留83%
对大模型进行量化、剪枝等压缩操作,是部署时最常见不过的一环了。这个极限究竟有多大?清华大学和哈工大的一项联合研究给出的答案是:90%。作者进一步分析了这种极低比特量化模型的能力和前景,并为未来的研究提供了指导。