大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着Sora的爆火,人们看到了AI视频生成的巨大潜力,对这一领域的关注度也越来越高。除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。如下表所示,UniEdit的表现大幅超过基线方法。
字节与浙大联合推多模态大语言模型Vista-LLaMA 可解读视频内容
在自然语言处理领域,大型语言模型如GPT、GLM和LLaMA等的成功应用已经取得了显著的进展。将这些技术扩展到视频内容理解领域则是一项全新的挑战。其在长视频内容方面的显著优势为未来多模态交互和自动化内容生成领域提供了广泛的机遇。
清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标
GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。浙大竺院的一位校友,与微软研究院等机构合作推出了新版多模态模型LLaVA。来自微软研究院和哥伦比亚大学的学者也有参与LLaVA的相关工作。
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
【新智元导读】GPT-4V风头正盛,LLaVA-1.5就来踢馆了!它不仅在11个基准测试上都实现了SOTA13B模型的训练,只用8个A100就可以在1天内完成。9月底,OpenAI宣布ChatGPT多模态能力解禁。他的研究方向是可控的多模态图像生成与处理,以及其他与创意视觉相关的问题。
浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V
LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优成绩,包括视觉问答、图像caption等任务,展现出了强大的多模态理解能力。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。
百万token上下文窗口也杀不死向量数据库?CPU笑了
“Claude3、Gemini1.5,是要把RAG给搞死了吗?”随着新晋大语言模型们的上下文窗口变得越发得长,业界人士针对“RAG终将消亡”观点的讨论也是愈演愈烈。之所以如此,是因为它们二者都是为了解决大模型的幻觉问题,可以说是属于两种不同顶尖技术流派之间的对峙。更多CPU支持向量数据库的解决方案内容,请点击“阅读原文”获取。
OpenAI CEO:对挑战搜索引擎领域没兴趣 太小儿科
OpenAICEO山姆阿尔特曼最近表示,自己对挑战搜索引擎领域没有兴趣。阿尔特曼称,首先我们要评估能否打造一个比谷歌或者其它公司更优秀的搜索引擎,答案是肯定的。谷歌这边则是推出了聊天机器人Bard,现已更名为Gemini,像是程序编写、逻辑推理、遵循细微与精确的指示,以及进行创意协作,对标OpenAI。
AI在用 | 数学更生动,Claude-3直接生成勾股定理动画
以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。我们分享X平台用户@dr_cintas使用Claude3生成勾股定理动画的用例。https://twitter.com/jx_/status/1766835879107256451今天的案例展示了大模型对教育领域潜在影响的冰山一角,以后我们会通过新专栏带来更多大模案例演示,也欢迎大家留言评论并给出改进建议。
Face to Many官网体验入口 面部艺术AI换脸工具在线使用地址
FacetoMany是一款可以将一张面部照片转变成多种风格的面部艺术工具。用户可以选择转换的风格,包括3D、表情符号、像素艺术、电子游戏风格等,轻松创建奇妙有趣的作品。要了解更多关于面部艺术的信息,以及开始您的创作之旅,请访问FacetoMany官方网站。
小米Civi 4 Pro重量不到180g!雷军:不可思议
小米创办人雷军为小米Civi4Pro预热。在Civi4Pro上,小米做到了7.45mm超薄设计,重量控制在了179.3g。该机将在3月21日正式发布。
今日AI:英伟达再出王炸!推最强AI加速卡GB200+机器人模型GR00T;Magnific AI照片风格化功能上线;免费好用的SDXL动漫模型Animagine XL3.1来了
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/📰🤖📢AI新鲜事英伟达发布最强AI加速卡GB200!单机可训15个GPT-4模型英伟达推出通用机器人模型:ProjectGR00TSD3-Turbo:基于LADD的快速文本到图像生成模型支持百亿参数大模型、卢伟冰现�
华为P70下月发布!赵明:荣耀Magic6 至臻版可以竞争 欢迎对比
日前荣耀正式发布了直板机皇荣耀Magic6至臻版。至臻版相较于之前的Pro版最大的升级就是影像系统,带来了基于LOFIC技术的超高光比的定制H9800传感器,是全行业首发。荣耀Magic6系列目前来看在综合体验和创新上是最顶流的,期待能够跟华为P70系列好好的在创新和体验上比较一下。
荣耀Magic6 RSR 保时捷设计定价比华为非凡大师低 赵明回应
荣耀于3月18日晚发布荣耀Magic6RSR保时捷设计,定价是9999元。在专访环节,有媒体问道:荣耀Magic6RSR保时捷设计定价比华为非凡大师版稍微低一点,是出于什么样的因素定这个价格?对此,荣耀CEO赵明作出回应,表示荣耀定价没有看华为的非凡大师版。荣耀还通过算法改善,为屏幕提供了像素级动态补偿寿命技术,动态调整像素亮度,实现屏幕寿命提升至6倍正常使用3年后的屏幕亮度衰减比率小于1%,从新机用到换机,屏幕亮度依然远超常规屏幕。
DarkGPT:基于ChatGPT-4的AI工具 用于检测泄露的数据库
一位在GitHub上使用“luijait”别名的西班牙渗透测试人员发布了一个名为“DarkGPT”的AIOSINT工具,旨在帮助检测泄露的数据库。DarkGPT是一款由ChatGPT-4-200K驱动的OSINT助手,在这个数字化时代,处理大量数据的能力非常宝贵。DarkGPT以其强大的功能脱颖出,包括与GPT-4-200K的集成、安全查询泄露的数据库、易于使用的命令行界面以及可定制的环境设置,以适应特定的情报需求。
小米Civi 4 Pro全系配色公布:最美绿色手机预定
小米Civi4Pro将于3月21日正式发布,这是小米Civi系列综合能力最强的一款机型。小米手机官方已对该机进行预热,首先公布的是小米Civi4Pro外观设计部分。小米集团总裁卢伟冰表示,从小米Civi4Pro开始,小米Civi将实现旗舰技术、旗舰配置、旗舰体验的全面提升,向小米数字系列全面看齐,让小米品牌手机产品序列从此实现全系旗舰”。
MedChatZH:一款专为传统中医会诊设计的调校LLM模型
GenerativeLargeLanguageModels在各种自然语言处理任务中取得了显著成功,包括问答和对话系统。大多数模型是在英文数据上训练的,缺乏在提供中文答案方面的强大泛化能力。MedChatZH的有效性有望为特定于不同语言和文化背景的LLMs开辟新途径。
谷歌AI推出新型评分器Cappy 助力多任务语言模型性能提升
在最新的研究论文中,谷歌研究人员引入了一种名为Cappy的预训练评分器模型,旨在增强和超越大型多任务语言模型的性能。这项研究旨在解决大型语言模型所面临的挑战,其中包括高昂的计算资源成本和效率低下的训练和推理过程。通过引入轻量级预训练评分器Cappy,这项研究解决了在多任务场景中有效利用大型语言模型的挑战,展示了其在各种任务上的参数效率和性能的优越性,同时强调了在实际应用中简化大型语言模型采用的潜力。
NVIDIA发布GR00T基础模型 对Isaac机器人平台进行更新
NVIDIA在最新的消息中宣布了ProjectGR00T,这是一项为人形机器人提供通用基础模型的项目。该项目的推出旨在推动机器人和具象化人工智能领域的突破。NVIDIA正在为1XTechnologies、AgilityRobotics、Apptronik、BostonDynamics等领先的人形机器人公司构建全面的人工智能平台,以支持不断发展的机器人生态系统。
一加Ace 3V普及旗舰AI能力:支持小布知识问答、点评
一加已宣布,将于3月21日19点举行新品发布会,为大家带来一加Ace3V。一加中国区总裁李杰表示,一加Ace3V要做AI普及者,做年轻人的第一台AI手机。更可以轻松帮用户写各种点评、各种文案,甚至还能帮你做旅游攻略。