吉娃娃or松饼难题被解决!IDEA研究院新模型T-Rex2打通文本视觉Prompt,连黑客帝国的子弹都能数清楚
还记得黑客帝国经典的子弹时间吗?IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~面对难倒一众大模型「吉娃娃or松饼」的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃解。也是同样的团队,推出了基于视觉提示的检测模型T-Rex。T-Rex2让通用物体检测又迈出了新的一步。
南方科技大学联合IDEA研究院发布 SUS-Chat-34B 双语模型
南方科技大学联合IDEA研究院CCNL中心发布了SUS-Chat-34B,这是一个参数规模为340亿的双语模型。该模型在众多中英文任务上表现出色,超越了其他同参数规模的模型。即使与更大参数规模的模型相比,SUS-Chat-34B模型也具有不错的竞争力更长的上下文窗口与出色的多轮对话能力:SUS-Chat-34B原生支持8K的上下文窗口,在大量多轮指令以及单多轮混合数据中进行训练,具有出色的长文本对话信息关注与指令跟随能力。
Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性idea
在计算机图形学中,「三角形网格」是3D几何物体的主要表现形式,也是游戏、电影和VR界面中主要使用的3D资产表示方法。业界通常基于三角形网格来模拟复杂物体的表面,如建筑、车辆、动物,常见的几何变换、几何检测、渲染着色等动作,也需要基于三角形网格进行。如下图9所示,MeshGPT还可以基于给定的局部形状推断出多种可能的补全,生成多种形状假设。
IDEA提出ToG思维图谱 大模型性能提升214%!
由IDEA研究院、微软亚洲研究院、香港科技大学等多方研究团队合作推出的Think-on-Graph技术,在深度推理领域掀起了一场革新。这一技术通过紧耦合大模型与知识图谱,成功弥补了大模型在金融、法律、医疗等领域幻觉问题上的能力短板。这一研究成果为深度推理领域的发展带来了新的思路和方法,为实现大模型在各领域应用中更可靠、可解释的推理能力提供了有力支持。
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
用视觉来做Prompt,是种什么体验?只需在图里随便框一下,结果秒秒钟圈出同一类别!即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。发布会最后,沈向洋发布《低空经济发展白皮书——深圳方案》,在其智能融合低空系统中,提出时空进程新概念。
特斯拉Model S Plaid升级运动座椅 配备 Plaid 专属标识
特斯拉中国宣布,ModelSPlaid全新升级运动座椅,配备Plaid专属标识,有全黑色、黑色和白色、米色配色可选。ModelS是特斯拉推出的一款安全、高性能的电动轿车,提供了多种配置和定制选项。ModelSPlaid版则为三电机全轮驱动,售价为¥828,900,具备更高性能配置,包括0-100公里/小时加速仅需2.1秒、1020马力、碳纤维套的转子等。
AI日报:suno劲敌Udio上线就被挤崩;谷歌将推AI视频Google Vids;蚂蚁CodeFuse推图生代码;ChatGPT之后增长最快的AI网站竟是它
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
MiniGPT4-Video官网体验入口 视频理解多模态AI大模型使用地址
MiniGPT4-Video是什么?MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。用户可以上传视频,让模型生成标题与宣传语,理解特效处理,或作超美抒情诗。
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。下一步研究将模型能力扩展到处理更长视频的能力。
VideoSwap代码放出 可替换视频人物同时保持背景不变
在数字时代,视频编辑技术日新月异,如今有一款名为VideoSwap的工具,允许用户轻松替换视频中的主体,同时保持视频的背景环境不变。这一功能为个性化和精确的视频内容编辑提供了更多可能性。如果您希望为您的视频内容增添新意,那么VideoSwap无疑是一个值得尝试的选择。
Pipio | Video Dubbing官网体验入口 AI视频翻译语音合成工具免费使用地址
Pipio|VideoDubbing是一款AI技术实现视频语音的自动配音和口型同步的工具,可轻松实现视频多语种翻译并保留原始音色。它的特点包括:1)33%以上的同步精度,媲美人工口型同步;2)无损视频分辨率;3)高保真语音翻译。欢迎了解更多关于Pipio|VideoDubbing的信息,访问官方网站。
阿里推AtomoVideo文本+图片生视频模型,媲美Gen-2和Pika
标题:🎥划重点:1.🌐AtomoVideo介绍:阿里技术团队推出的文本图片生成高保真视频模型,通过简单的文本提示和高清图片即可生成逼真高清视频。2.🚀技术创新:AtomoVideo融合多粒度图片注入和时间建模,利用VAE编码器和CLIP编码器提高细节信息和文本语义的一致性,同时在时间维度上进行创新以学习时序动态模式。这一创新性的视频生成模型将为AIGC领域带来更多可能性,引领视频�
Midjourney计划推出中国版Midjourney Desktop App
MidjourneyOfficeHour本周宣布,他们正在与中国的员工合作,计划推出一个类似于Slack的中国版MidjourneyDesktopApp。这个新版本的应用在总体设计上与官方版一致,但在组织内容的方式、社交功能以及针对当地监管机构的管理功能上存在差异。Midjourney正在开发一个名为“样式探索器”的功能,它类似于一个随机样式生成器,帮助用户探索和尝试不同的创作风格,增加创作的多样性和趣味性。
最长处理2小时,开源视频字幕模型Video ReCap
随着抖音、快手等平台的火爆出圈,越来越多的用户开始制作大量的短视频内容。但对这些视频进行有效的理解和分析仍面临一些困难。VideoReCap生成的分层视频字幕可以将文本问答模型的性能提高4.2%,并以50.23%的整体准确率刷新了记录,比之前的最佳方法提高了18.13%。
VideoPrism官网体验入口 AI视频理解编码器使用介绍
VideoPrism是一个通用的视频编码模型,可在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。要获取更多详细信息并开始使用VideoPrism,请访问VideoPrism官方网站。
每日AI:谷歌推AI视频VideoPrism;ChatGPT新增文本朗读功能;Stability AI推图片放大工具Creative Upscaler;Stable Diffusion安卓版客户端来了
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。
Snap Video官网体验入口 AI视频合成Transformer架构免费在线使用地址
SnapVideo是一个视频优先的模型,通过延伸EDM框架系统地解决视频生成领域的挑战,如运动保真度、视觉质量和可扩展性。该模型利用帧间的冗余信息,提出了一个可伸缩的transformer架构,将空间和时间维度作为一个高度压缩的1D潜在向量,从有效地进行空间时间联合建模,合成时间连贯性强、运动复杂的视频。现在就访问SnapVideo官方网站,体验视频合成Transformer架构的引领技术�
谷歌VideoPoet负责人蒋路跳槽TikTok!对标Sora,AI视频模型大战在即
谷歌VideoPoet项目ResearchLead,CMU兼职教授蒋路的GoogleScholar资料显示已加入TikTok。有传闻TikTok招募了某篇论文的作者作为北美技术部门负责人,研发能和Sora对抗的视频生成AI。有关未来的研究方向,谷歌研究人员表示,VideoPoet框架将会实现「any-to-any」的生成,比如扩展文本到音频、音频到视频,以及视频字幕等等。
HitPaw Online AI Video Translator官网体验入口 AI多语言视频翻译工具免费在线使用地址
HitPawOnlineAIVideoTranslator是一款先进的AI视频翻译服务,支持多种语言选择,使您的视频内容能够触达全球观众。它还提供语音转文字和文字转语音的在线工具,能够准确地将音频转录为多种语言。点击前往HitPawOnlineAIVideoTranslator官网体验入口,立即体验多语言视频翻译的便捷与高效。