南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频
南大等机构的研究人员推出了一项引人注目的研究成果——VividTalk框架,其能够通过一段音频和一张照片实现令人惊叹的说话视频生成。这一通用框架采用了两阶段生成方法,首先通过考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,生成3D驱动的网格。这项研究成果将有望在虚拟人物、语音合成和视频制作等领域产生深远的影响。