一言不合就跑分,国内AI大模型为何沉迷于“刷榜”
当刷榜可能带来强烈的宣传效应,甚至可能会为融资打下基础的情况下,商业利益的加入就必然会驱使AI大模型厂商争先恐后去刷榜了。
“不服跑个分”这句话,相信关注手机圈的朋友一定不会感到陌生。诸如安兔兔、GeekBench等理论性能测试软件,由于能够在一定程度上反映手机的性能,因此备受玩家的关注。当刷榜可能带来强烈的宣传效应,甚至可能会为融资打下基础的情况下,商业利益的加入就必然会驱使AI大模型厂商争先恐后去刷榜了。
一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”
如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。另一项提议是建立一个逐年更新的测试基准,来缓和过度拟合问题。
大模型走捷径「刷榜」?数据污染问题值得重视
生成式AI元年,大家的工作节奏快了一大截。好在这个问题开始逐渐引起大家的关注,无论是技术报告、论文研究还是社区讨论,都开始重视大模型「刷榜」的问题了。