清华大学提出三维重建的新方法O²-Recon 支持大角度旋转和平移
清华大学团队提出了O²-Recon方法,利用2D扩散模型补全图像中被遮挡的物体,然后通过神经隐式表面场重建完整的三维物体。在现有方法的基础上,O²-Recon能够更准确地重建三维结构,并支持大角度的旋转和平移,具有广泛的应用前景。该方法的提出为物体级别的三维表面重建技术带来了新的突破,有望在AR/VR/MR以及机器人等领域得到广泛应用。
谷歌开发实时渲染大型三维场景技术SMERF
Google团队开发了一种名为SMERF的技术,可以在最大300平方米的房间内实时创建非常逼真的三维场景,其精度达到厘米级别。这项技术的最大特点是,它可以在普通智能手机和笔记本电脑上实现60fps或更高的速度实时渲染,并提供完整的六自由度3D导航体验。这项技术的出现将为用户带来更加真实、流畅的三维体验无需昂贵的设备,只需普通的智能手机和笔记本电脑即可。
首个三维具身通才智能体LEO:全面掌握感知、推理、规划、行动
多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。这些模型主要基于二维图片和文本数据,对于理解和交互于三维世界的任务存在一定的欠缺。LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破,为实现通用人工智能迈出了重要一步。
三星Bixby视觉与功能上的升级 让智能助手更加贴心
三星的数字助手Bixby进行了视觉上的改进,与当前的OneUI保持一致。新版本的Bixby采用了简洁直观的设计风格,使用户能更轻松地与之互动。我们期待未来能看到它带来哪些新的惊喜。
计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花
UC伯克利的CV三巨头推出首个无自然语言的纯视觉大模型,第一次证明纯CV模型也是可扩展的。更令人震惊的是,LVM竟然也能做对图形推理题,AGI火花再次出现了?计算机视觉的GPT时刻,来了!最近,来自UC伯克利的计算机视觉「三巨头」联手推出了第一个无自然语言的纯视觉大模型,并且第一次证明了纯视觉模型本身也是可扩展的。下图展示了一些不容易用语言描述的提示——这是LVM可能最终胜过LLM的任务类型。