快手发布革命性视频运动控制技术 DragAnything
快手科技近日推出了一项创新技术DragAnything,它是一个利用实体表示实现任何物体运动控制的项目页面。该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。实验结果显示,DragAnything在FVD、FID和用户体验研究方面均达到行业领先水平,尤其在对象运动控制方面比先前技术提高了26%。
多功能即时语音克隆技术OpenVoice 可精细控制情感、口音等
OpenVoice是一项非常实用的即时仿声技术,能够根据目标发言人的短音频模仿其声音,并生成各种语言的语音。该技术不仅可以模仿发言人的音质能够精细控制情感、口音、语调、停顿和节奏等各种语音风格。零射击跨语言语音克隆:该模型能够在训练数据集中未呈现的语言中生成语音,展示了其适应性和多功能性。
新NeRF技术:将视频转化为可控制的3D模型 创建数字人更简单了
FraunhoferHeinrichHertz研究团队取得重大突破,他们引入了一项全新技术,使用神经辐射场将标准RGB视频转化为可控制的3D人体模型。这一创新代表了计算机图形领域中的一项重要进展,解决了从视频片段中创建逼真、可控制的3D模型一直以来的难题。这项工作将数字人物的创建变得更加可行,为个人创作者和小型制作团队带来更多应用可能性。