Clip4Cir开源:基于参考图像和文字描述搜索图片
Clip4Cir采用了一种搜索图片的方法,图片看起来像给定的图片,但是在标题中描述了变化。它使用了增加了特殊技巧的CLIP模型。主要内容包括:项目目标:实现基于参考图像和文字描述的图像检索任务模型框架:先微调CLIPencoder,再训练Combiner网络进行多模态融合数据集:使用FashionIQ和CIRR两个流行的数据集用法:提供了CLIP微调、Combiner训练、评估等多个脚本效果:验证结果表明,相比复杂的SOTA方法,该方案可以获得更好的性能特点:代码清晰易于理解,便于研究总体来说,本项目提供了一个基于CLIP的图像检索任务强大且易于使用的解决方案,值得关注和参考。