研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复
随着对生成式人工智能技术需求的激增,大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战,密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。Oobleck的开发标志着利用固有冗余提高容错性的新里程碑,为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。
百川智能发布超千亿大模型Baichuan 3 中文任务超车GPT-4
百川智能最新发布了基础模型第三代版本Baichuan3,该模型在医疗场景、文学创作和逻辑推理能力等方面均获得了突破性升级。Baichuan3在医疗领域的评测成绩超越了GPT-4水平,各项测能力大幅超越了GPT-3.5,表现出卓越的逻辑思考和问题解决技能。百川智能的路线和OpenAI的路线一致,即参数出涌现,同时进行优化和创新。
百川智能发布大模型Baichuan3 称中文评测超越GPT-4
百川智能于1月29日推出了拥有超过千亿参数的大型语言模型Baichuan3。该模型在多个公认的通用能力评估,如CMMLU、GAOKAO和AGI-Eval等,都展示了卓越的表现,特别是在中文任务上更是超过了GPT-4的水平。Baichuan3全面的通用能力以及在医疗领域的强大表现,将为百川智能打造“超级应用”,把大模型技术落地到诸多复杂应用场景提供有力支撑。
智谱AI发布中文 LLM 对齐评测基准AlignBench
智谱AI发布了专为中文大语言模型生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。通过登录AlignBench网站,提交结果可以使用CritiqueLLM作为评分模型进行评测,大约5分钟即可得到评测结果。
SuperCLUE:GPT-4 Turbo中文基准评测领先国内最强模型超过30分
GPT-4Turbo是OpenAI发布的最新ChatGPT模型,具有128K上下文和训练数据知识截止至2023年4月。SuperCLUE表示,GPT-4Turbo在SuperCLUE-OPEN中文通用大模型综合性评测基准上,取得了总分98.4,八项基础能力满分,领先国内最强模型超过30分。5.GPT-4Turbo对函数调用、指令和JSON模式进行了调优,提高了模型的性能。