让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》为例,在GTA的世界里,玩家可以以第一人称视角,在洛圣都当中经历丰富多彩的生活。连续的视频可以更进一步提高模型完成任务的性能,但如何高效地处理和理解连续视觉输入将成为进一步提升VLM性能的关键。
南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手
南洋理工大学、清华大学等发布了一种名为Octopus的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。Octopus具备规划推理和根据实时环境做出反馈的能力,能够理解真实世界并生成可执行代码来完成各种实际任务。这一研究对于实现大模型的具身智能化具有重要意义,为进一步探
视频版ContorlNet来了!SparseCtrl增强AI生成视频可控性
在文本到视频领域的最新研究中,SparseCtrl技术通过引入时间稀疏信号实现了对视频结构的灵活控制。传统的文本提示在空间不确定性方面存在问题,容易导致模糊的帧组合。我们可以期待看到SparseCtrl在各种领域的广泛应用,为视频生成领域带来更多的创新和可能性。
InstantID模型发布 相比PhotoMaker保留了良好的文本可编辑性
人脸身份保持项目InstantID正式发布模型。与PhotoMaker和IP-Adapter-FaceID相比,InstantID实现了更好的保真度并保留了良好的文本可编辑性。InstantID还支持多重参考,允许使用多张参考图像来生成一个新图像,从增强生成图像的丰富性和多样性。