用2D图像补全3D场景,谷歌发布NeRFiller
在许多3D场景捕获中,由于网格重建失败或者缺乏观测,例如,物体接触区域或难以触及的区域,场景中的某些部分经常会出现缺失的情况。谷歌和加州大学伯克利分校的研究人员提出了NeRFiller框架,可通过2D图像来修复残缺的3D场景,同时发现当图像形成2x2网格时,会生成更多3D一致性的修复效果。为了优化3D场景的几何形态,NeRFiller在室内场景中可加入了相对深度的监督,补全后预测深度,只对补全区域施加排序损失。
浙大研究者提出UrbanGIRAFFE,解决城市场景的可控3D感知图像合成
浙江大学的研究人员最近提出了一种名为UrbanGIRAFFE的创新方法,用于解决具有挑战性的城市场景的可控3D感知图像合成问题。该方法通过引入可控的相机姿势和场景内容,以实现逼真的图像合成,特别是在处理具有挑战性的城市环境时。UrbanGIRAFFE通过在合成和实际数据集上进行全面评估,展示了在可控性和保真度方面超越各种2D和3D基线的出色性能。
AI「脑补」画面太强了!李飞飞团队新作ZeroNVS,单个视图360度全场景生成
利用3D感知扩散模型训练模型,然后对单个物体进行SDS蒸馏的研究数不胜数。能够真正做到「场景级」的画面生成,从未实现。他还曾在谷歌研究院担任学生研究员。
以搜索增强对抗幻觉,百川智能拿出了实现大模型商业化的最后一块拼图
12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo。这是9月末Baichuan2-53B第一次向外界打开API之后,百川智能在B端的进一步动作。“在整体规划上,我们做7B和13B的模型就是用来做开源的,但主力的模型还是会往百亿、千亿上走。
280万大模型中文开发者拿到最后一块拼图
2023年5月,微软CEO纳德拉抛出一个惊人数字,未来全球的开发者数量将会达到10亿。那时候Meta的Llama已经开源4个月,但一些国内的开发者发现,从小以英文语料喂养起来的Llama,对中文世界并不友好。周靖人对通义千问的定位是“AI时代最开放的大模型”,现在打点好一切,静待开发者入场了。