让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》为例,在GTA的世界里,玩家可以以第一人称视角,在洛圣都当中经历丰富多彩的生活。连续的视频可以更进一步提高模型完成任务的性能,但如何高效地处理和理解连续视觉输入将成为进一步提升VLM性能的关键。
南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手
南洋理工大学、清华大学等发布了一种名为Octopus的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。Octopus具备规划推理和根据实时环境做出反馈的能力,能够理解真实世界并生成可执行代码来完成各种实际任务。这一研究对于实现大模型的具身智能化具有重要意义,为进一步探