EMAGE:上传音频就能生成全身动作 包括头部、嘴型、身体运动
多所知名大学和研究机构的研究人员共同提出了EMAGE框架,旨在从音频和掩码手势生成全身人类手势。EMAGE技术能实现输入音频生成全身动作,包括头部、嘴型、身体、手部和整体运动,跟之前Meta的audio2photoreal很像。研究团队表示,他们的代码和数据集已经公开提供,供学术和工业界使用。
首个三维具身通才智能体LEO:全面掌握感知、推理、规划、行动
多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。这些模型主要基于二维图片和文本数据,对于理解和交互于三维世界的任务存在一定的欠缺。LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破,为实现通用人工智能迈出了重要一步。