AI视野:百度发布超级助理插件;AI入侵B站鬼畜区;字节跳动开源视频模型MagicAnimate;给ChatGPT“小费”可改善回答质量
百度智能云发布基于文心一言的AI浏览器插件“超级助理”,以WebCopilot形式提供智能助理服务,涵盖复杂问题解析、文案创作辅助、智能文档处理等场景,支持个性化行业版,助力专业人士提升工作效率。支付宝发布首个用户资产模型支付宝全域数据营销产品【棋盘密云】升级,推出首个用户资产模型5C,为商家提供更高效的支付宝内用户运营支持,通过五个层级划分用户,提
中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻
自曝996作息的OpenAI研究员JasonWei表示,Sora代表着视频生成的GPT-2时刻。竞争的关键,就是算力和数据了。从申请表中可以看出,OpenAI正在寻找以下认知科学、化学、生物、物理、计算机、经济学等领域的专家。
爱奇艺,长视频“慢”生意里的“快”公司
“一个国家或地区人均GDP每年大于1万美金,这个国家的文化娱乐消费相比GDP有更快的增长速度。2019年中国人均GDP超过了1万美金,我们相信历史规律可以在娱乐行业再现,消费拐点给了我们更多的空间。”这是爱奇艺创始人、首席执行官龚宇在2024爱奇艺世界·大会的一段发言。抛开成绩和爆款来谈这个世界的变化,爱奇艺在大家都在低头赶路的时候,扮演了一个抬头看路的角�
当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律
你说箱子里要装满钻石,于是箱子被钻石填满,比实拍还要耀眼。这样的技能,哪个剧组不喜欢?这是前段时间Adobe旗下的视频剪辑软件PremierePro所呈现的「魔法」。此次「Vidu」的推出,是生数科技在多模态原生大模型领域的再一次创新和领先。
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型
MetaAI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果,证明了其在多模态视频理解应用中的有效性和多功能性。
AI也可以生成延时视频了 MagicTime输入文本即可生成植物生长视频
一个名为MagicTime的新模型引起了业界的广泛关注。这个模型专注于生成变形时间延迟视频,基于DiT的架构,解决了现有文本到视频生成模型未能充分编码现实世界物理知识的问题。MagicTime还计划将额外的变形景观时间延迟视频集成到相同的注释框架中,查找ChronoMagic-Landscape数据集,然后使用该数据集Open-Sora-Planv1.0.0,获得MagicTime-DiT模型。
首个开源世界模型LWM :百万级上下文,长视频理解超GPT-4
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为LWM系列模型。这一模型采用了大量视频和书籍数据集,通过RingAttention技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1Mtoken。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。
超越Sora!AI视频模型StreamingT2V可生成120秒超长视频
UT奥斯丁等机构提出的StreamingT2V技术引发了广泛关注,将AI视频生成推向了新的高度。这项技术突破了以往视频长度的限制,实现了生成高度一致且长度可扩展的视频。StreamingT2V技术的不断完善和提升也将进一步推动AI视频生成领域的发展,为视频内容创作提供更多可能性。
AI图像平台Fotor推出一站式AI长视频平台Clipfly
图像编辑平台Fotor正式拓展视频领域,推出名为Clipfly的全新一站式AI长视频平台。Clipfly集成了AI视频生成、增强和编辑等多种功能,用户可在该平台完成从构思到最终视频输出的整个流程。该平台将为视频创作者提供高效的AI制作工具。
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
在2024世界经济论坛的一次会谈中,图灵奖得主YannLeCun提出用来处理视频的模型应该学会在抽象的表征空间中进行预测不是具体的像素空间[1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,正是促进该过程的关键技术。研究者可进一步探讨多种模态间的关联问题,例如视频往往包含视觉、文本及音频信号;可尝试结合外部大语言模型或多模态模型来
Sora时代:长视频走进“迷雾剧场”?
“扔进一部小说、出来一部大片”。这并不是科幻是AI即将带给整个内容行业的一点点震撼。文章不构成投资建议,投资与否须自行甄别。
汤晓鸥弟子带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24
想要AI生成更长的视频?现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。它最长可支持512帧。毕业后曾在UC伯克利做博士后、港中文担任四年研究员。
微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听
微软AzureAI发布了MM-Vid,这是一项结合GPT-4V与专用工具的创新,致力于解读长视频并为视障人士提供更好的体验。人工智能在长视频理解领域所面临的复杂挑战,包括分析多个片段、提取不同信息源、实时处理动态环境等。这一创新有望推动视觉领域的发展,使得语言模型在多模态环境下的应用更加广泛。