全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
研究人员推出了一种新的视觉提示方法Set-of-Mark,它可以让OpenAI多模态大模型GPT-4V在视觉内容理解方面有了质的提升。GPT-4V是一种基于GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。这些结果表明了SoM的有效性和灵活性,以及GPT-4V在细粒度视觉任务上的潜力。