让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》为例,在GTA的世界里,玩家可以以第一人称视角,在洛圣都当中经历丰富多彩的生活。连续的视频可以更进一步提高模型完成任务的性能,但如何高效地处理和理解连续视觉输入将成为进一步提升VLM性能的关键。
南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手
南洋理工大学、清华大学等发布了一种名为Octopus的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。Octopus具备规划推理和根据实时环境做出反馈的能力,能够理解真实世界并生成可执行代码来完成各种实际任务。这一研究对于实现大模型的具身智能化具有重要意义,为进一步探
港大与浙大联合研发SC-GS模型 鼠标拖拽实时可编辑3D重建
在数字资产创造和3D重建领域,香港大学CVMI实验室与3D大模型公司VAST以及浙江大学的联合研究团队提出了一项突破性成果——SC-GS模型。这一模型不仅在新视角合成领域掀起了革命性浪潮,更在动态场景的实时交互编辑方面展现了巨大潜力。他们期待在2024年看到更多基于高斯溅射技术的创新工作和探索。