智谱AI发布中文 LLM 对齐评测基准AlignBench
智谱AI发布了专为中文大语言模型生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。通过登录AlignBench网站,提交结果可以使用CritiqueLLM作为评分模型进行评测,大约5分钟即可得到评测结果。
以太坊创始人 Vitalik Buterin:如果超级人工智能攻击人类,「甚至火星也可能不安全」
以太坊创始人VitalikButerin近日在反思MarcAndreessen于10月发布的《技术乐观主义宣言》时,分享了他对「技术乐观主义」的看法。Buterin对Andreessen对AI的积极展望表示赞同,同时强调了AI发展方式及其未来方向的重要性。但我期待着观看并参与我们物种为找到答案进行巨大的集体努力。
Galileo Lab 推出检测 AI 幻觉的新指标
幻觉问题正在成为AI一个主要问题,因为新的AI工具在喷发出具有权威性的废话方面越来越出色。剑桥词典将“幻觉”定为2023年的年度词汇。GalileoLabs等检测和减少幻觉的工具将帮助企业更安全地利用LLMs。
1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强
堪称改变游戏规则的视觉语言模型PaLI-3问世,引得大量科研人员关注。PaLI-3是谷歌最新推出的视觉语言模型,以更小的体量,更快的推理速度,达到了更强的性能。PaLI-3还未完全开源,但是开发人员已经发布了多语言和英文SigLIPBase、Large和So400M模型。
谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强
在多模态大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。在大模型时代,视觉语言模型的参数已经扩展到了数百甚至数千亿,使得性能持续增加。表7和表8评估了模型的公平性、偏差和其他潜在问题。