Vary-toy:具有高级视觉词汇视觉语音模型 适用于标准GPU
在过去的一年里,大型视觉语言模型已经成为人工智能研究的一个突出焦点。当以不同方式启动时,这些模型在各种下游任务中表现出色。研究人员计划公开发布代码,供研究社区进一步探索和采用。