EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频
由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份
阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频
阿里巴巴智能计算研究所提出了一种新的生成式框架EMO,只需输入图片和音频即可生成具有表现力的视频视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配,但也可能成为造假的利器,因此一些名人可能需要警惕了。需要注意的是,该框架目前仅用于学术研究和效果演示有待进一步优化和扩展其应用范围。
谷歌紧急修复Gemini AI图片生成,因生成作品种族歧视问题
谷歌正在竭力修复其新的AI图片生成工具,因为有人声称该工具过度纠正了可能存在种族歧视的风险。谷歌的Gemini机器人在历史背景不符的情况下提供了各种性别和种族的图像。"他在那里写道:"这是对齐过程的一部分-对反馈的迭代。
Poe推出新功能Image Remix 用户可修改和定制AI生成的图片
Poe最近推出了一个名为ImageRemix的新功能,让用户可以随心所欲地修改和定制AI生成的图片。这项功能包括改变图片的风格、布局和颜色等,让用户能够根据自己的喜好创建更个性化的图片。Poe计划很快将支持扩展到iOS和Android设备,让更多用户能够享受到这一创新功能。
多模态语言模型Reka Core:可分析图片、视频、音频 评测得分与GPT-4接近
RekaAI近日宣布推出其最新力作——RekaCore,这是一款前沿的多模态语言模型,拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频,评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持,Reka已经准备好迎接更广泛的挑战,展望未来,我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。