Media.io官网体验入口 AI视频音频编辑工具在线使用地址
Media.io是一个在线平台,提供一系列便携式的AI工具,用于视频、音频和图像编辑。它提供了视频卡通化、AI头像生成器、图像增强器和水印去除器等功能。要了解更多关于Media.io的信息,并体验其丰富的编辑功能,请访问Media.io官方网站。
多模态语言模型Reka Core:可分析图片、视频、音频 评测得分与GPT-4接近
RekaAI近日宣布推出其最新力作——RekaCore,这是一款前沿的多模态语言模型,拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频,评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持,Reka已经准备好迎接更广泛的挑战,展望未来,我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。
阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频
阿里巴巴智能计算研究所提出了一种新的生成式框架EMO,只需输入图片和音频即可生成具有表现力的视频视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配,但也可能成为造假的利器,因此一些名人可能需要警惕了。需要注意的是,该框架目前仅用于学术研究和效果演示有待进一步优化和扩展其应用范围。
Pika推出Lip Sync功能 支持视频人物嘴部动画和音频同步
创新视频生成工具Pika最近推出了一项名为LipSync的新功能。这项功能旨在帮助用户在生成视频中实现嘴部动画和音频的同步,从提供更加生动和逼真的视频体验。Pika的这些功能,无论是新推出的LipSync是之前的视频画面扩充和风格调整,都极大地增强了用户的视频创作能力,使得他们可以更轻松地制作出生动、有趣、富有创意的视频。
X将向所有用户推出音频和视频通话功能
X,马斯克旗下的社交平台,在去年推出了一项新功能,允许用户进行语音和视频通话。这项功能仅限于高级订阅用户使用。用户还可以控制谁可以给他们打电话,并且甚至可以关闭通话功能以避免被陌生人骚扰。
谷歌推大语言模型VideoPoet:文本图片皆可生成视频和音频
GoogleResearch最近发布了一款名为VideoPoet的大型语言模型,旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型,但在生成连贯的大运动时仍存在瓶颈。VideoPoet作为大型语言模型,通过集成多种视频生成任务,为零镜头视频生成提供了新的可能性,为艺术创作、影视制作等领域带来了潜在的创新机遇。
自媒体必备字幕生成工具Videosrt 可批量快速自动生成视频/音频字幕
VideoSrt是一款基于Golang语言,使用lxn/walkWindows-GUI工具包开发的开源软件工具。其主要功能是识别视频语音并自动生成字幕SRT文件。通过不断更新和发布,扩展了支持的功能和接口,使其始终保持高效性和灵活性。
DeepMind发布新模型Mirasol3B:更高效处理音频、视频数据
GoogleDeepMind日前悄然宣布了其人工智能研究的重大进展,推出了一款名为“Mirasol3B”的新型自回归模型,旨在提升对长视频输入的理解能力。该新模型展示了一种颠覆性的多模态学习方法,以更综合和高效的方式处理音频、视频和文本数据。这也为AI的研究人员、开发者、监管机构和用户提供了一项挑战和机会,需要确保该模型及其应用符合社会的道德、社会和环境价值观和标准。
AnimatableDreamer:2D视频素材一键转换成4D动态立体模型
目前内容产业的数据积累在3D模型和4D动画等方面仍较为薄弱。为了满足即将到来的多维沉浸式体验,清华系创业团队生数科技近期联合清华大学、同济大学等高校推出了全球首个基于「骨骼动画」的4D动画生成框架「AnimatableDreamer」。这些技术的创新能力将为未来的多维数字体验和人机交互带来更多可能性,从开启全新的内容娱乐与消费模式。