字节推多模态理解和图像定位模型LEGO 具备精准定位的能力
LEGO是一个由字节跳动和复旦大学联合研发的多模态理解和图像定位模型。这一模型具有处理和理解多种类型的输入的能力,包括图像、音频和视频。LEGO模型的研发和应用将为多模态理解和图像定位领域带来重大的突破,为相关领域的发展提供新的思路和解决方案。
百度网盘史诗升级:能精准定位到视频某一帧 几秒钟总结整个视频
在今天举办的百度世界2023上,李彦宏发布文心大模型4.0版本,并带来新搜索、新地图等十余款AI原生应用。通过对海量文档、图片和视频的理解和再生成,百度网盘拥有了创作能力。正如李彦宏此前所说,AI原生应用不是对移动互联网App和PC软件的简单重复是要能解决过去解决不了或解决不好的问题”。