一句话精准视频片段定位!清华新方法拿下SOTA|已开源
只需一句话描述,就能在一大段视频中定位到对应片段!比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:就连“大笑”这种语义难理解型的,也能准确定位:方法名为自适应双分支促进网络,由清华大学研究团队提出。ADPN是用来完成一个叫做视频片段定位的视觉-语言跨模态任务,也就是根据查询文本从视频中定位