随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力
【新智元导读】本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。研究人员计划在未来的工作中解决这些限制并扩展CLIP的输入分辨率,相信这些未来的方向是增强Alpha-CLIP能力并在各种下游任务中扩展其实用性的途径。