智谱AI发布中文 LLM 对齐评测基准AlignBench
智谱AI发布了专为中文大语言模型生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。通过登录AlignBench网站,提交结果可以使用CritiqueLLM作为评分模型进行评测,大约5分钟即可得到评测结果。