Tracking Any Object Amodally :让AI像人一样可以追踪任何对象
TrackingAnyObjectAmodally是由卡内基梅隆大学和丰田研究所开发的项目使得人工智能能够像人一样追踪物体的整体,即使在部分遮挡或不完全可见的情况下也能理解其完整结构。在这个项目中,计算机被训练成能够“理解”并追踪到部分遮挡物体的完整形状和位置。这个项目的成功将大幅提升计算机视觉系统的智能,让它们在处理遮挡物体时更加像人类,从在自动驾驶、视频监控等领域发挥更大的作用。
走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理
给你一首曲子的音频和一件乐器的3D模型,然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色,看它是钢琴曲还是小提琴曲又或是来自吉他;同时用视觉识别那是件什么乐器。用等价的线性投影模块替换其中一个Q-Former后,图像-3D的性能会下降一半以上,音频-视频的性能会下降超过10个点。