北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人
北京大学和中山大学等机构的研究者提出了一种名为Chat-UniVi的视觉语言大模型,实现了统一的视觉表征,使其能够同时处理图片和视频任务。这一框架的独特之处在于,它不仅在深度学习任务中表现卓越仅需短短三天的训练时间,就能够训练出具有130亿参数的通用视觉语言大模型。Chat-UniVi的提出为视觉语言模型的研究领域带来了新的思路,通过统一的视觉表征实现了对多模态数据的高效处理,为深度学习模型的训练和推理提供了更加便捷和经济的解决方案。