AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。下一步研究将模型能力扩展到处理更长视频的能力。
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。
InstantID模型发布 相比PhotoMaker保留了良好的文本可编辑性
人脸身份保持项目InstantID正式发布模型。与PhotoMaker和IP-Adapter-FaceID相比,InstantID实现了更好的保真度并保留了良好的文本可编辑性。InstantID还支持多重参考,允许使用多张参考图像来生成一个新图像,从增强生成图像的丰富性和多样性。
PhotoMaker平替?一张照片InstantID几秒钟就能生成个性化图片
InstantID是一项新技术,可以通过仅有一张人脸照片,几秒钟内生成不同风格的人物照片。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像无需复杂的训练或微调过程。这项技术支持多种风格化和写实的图像生成,能够适应不同的视觉需求,因此具有广泛的实用性和应用价值。