苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题
苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得
视觉编码器VCoder:提高模型在识别图像方面的能力
VCoder是一个视觉编码器,旨在提高多模态语言模型在识别图像中的对象和理解图像场景方面的能力。它能够帮助模型更好地理解和分析图像内容。在与其他模型的比较中,VCoder在对象计数和识别方面表现出色,特别是在复杂场景中。