比GPT-4还强,20亿参数模型做算术题,准确率几乎100%
大型语言模型在处理NLP领域的各种下游任务方面已经表现出卓越的能力。GPT-4、ChatGPT等开创性模型已经接受了大量文本数据的训练,使它们具备强大的文本理解和生成能力,能够生成连贯且上下文相关的响应,在各种NLP任务中具有高度通用性。为了评估模型在不同年级数学问题上的解决能力,该研究在K6数据集上测试评估了几种模型的性能,包括:GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B和MathGLM-GLM-10B,结果如下图8所示。