字节推多模态理解和图像定位模型LEGO 具备精准定位的能力
LEGO是一个由字节跳动和复旦大学联合研发的多模态理解和图像定位模型。这一模型具有处理和理解多种类型的输入的能力,包括图像、音频和视频。LEGO模型的研发和应用将为多模态理解和图像定位领域带来重大的突破,为相关领域的发展提供新的思路和解决方案。
一句话精准视频片段定位!清华新方法拿下SOTA|已开源
只需一句话描述,就能在一大段视频中定位到对应片段!比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:就连“大笑”这种语义难理解型的,也能准确定位:方法名为自适应双分支促进网络,由清华大学研究团队提出。ADPN是用来完成一个叫做视频片段定位的视觉-语言跨模态任务,也就是根据查询文本从视频中定位
马化腾:QQ还是很不错的 希望未来能找准定位
快科技1月29日消息,今天,腾讯在深圳湾体育中心召开了公司年会,腾讯公司创始人兼CEO马化腾回顾了过去一年腾讯旗下各项业务的发展,并对未来提出了规划。对于PCG(腾讯平台与内容事业群)部门,马化腾表示,PCG是所有老业务的集合体,特别难。其实QQ的很多产品服务还是不错的,但是限于QQ的圈子里出不去,希望QQ能够找到未来的产品定位,包括新测试的频道,可能会�