开源AI框架LaVague:理解自然语言指令 实现浏览器交互自动化
LaVague是一个旨在自动化浏览器交互的大型动作模型框架,通过将自然语言指令转化为无缝的浏览器交互,重新定义了互联网浏览体验。该框架的设计初衷是为用户自动化繁琐的任务,节省时间,让用户能够专注于更有意义的事务。未来的发展方向可能包括优化本地模型、改进信息检索以确保生成的代码片段相关性、支持其他浏览器引擎等。
AI视野:谷歌推小模型MobileDiffusion;Midjourney测试风格一致性功能;字节跳动推AI Bot开发平台扣子;LLaVA-1.6赶超Gemini Pro
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
LLaVA-1.6来了!赶超Gemini Pro 提升推理性能
LLaVA-1.6是一项新的技术成果,通过提升推理、OCR能力以及支持更多场景和广泛用户,为用户带来更好的体验。LLaVA-1.6不仅在多项基准测试中超越了GeminiPro,并且优于Qwen-VL-Plus,展现出了强大的性能。这将对多模态技术的发展产生积极的推动作用,为用户带来更广泛的应用场景和更好的体验。
新型稀疏LVLM架构MoE-LLaVA 解决模型稀疏性相关的性能下降问题
MoE-LLaVA是一种新型稀疏LVLM架构,通过使用路由算法仅激活top-k专家,解决了通常与多模态学习和模型稀疏性相关的性能下降问题。研究者联合提出了一种新颖的LVLM训练策略,名为MoE-Tuning,以解决大型视觉语言模型的扩大参数规模会增加训练和推理成本的问题。MoE-LLaVA能够帮助我们更好地理解稀疏模型在多模态学习上的行为,为未来研究和开发提供了有价值的见解。
微软开源多模态模型LLaVA-1.5媲美GPT-4V效果
微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。
清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。
AI视野:OpenAI员工集体辞职逼宫董事会;Runway正式发布运动画笔功能;animatediff-webui即将开源;北大开源Video-LLaVA大模型
OpenAI数百名员工集体威胁辞职,指责董事会解职Altman处理不当,要求董事会辞职,或将跟随Altman加入微软。Runway正式发布运动画笔和Gen-2风格预设Runway近日发布了一系列新功能和更新,其中包括运动画笔、Gen-2风格预设、更新的相机控制以及图像模型的改进。模型在13个基准测试上表现出色,无需配对数据训练,且通过预先对齐视觉输入,提高了对视频问答任务的性能。
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
【新智元导读】GPT-4V风头正盛,LLaVA-1.5就来踢馆了!它不仅在11个基准测试上都实现了SOTA13B模型的训练,只用8个A100就可以在1天内完成。9月底,OpenAI宣布ChatGPT多模态能力解禁。他的研究方向是可控的多模态图像生成与处理,以及其他与创意视觉相关的问题。
浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V
LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优成绩,包括视觉问答、图像caption等任务,展现出了强大的多模态理解能力。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。
售价超6万!Caviar推出定制版Galaxy S23/24 Ultra手机:赛博朋克风拉满
知名定制厂商Caviar最近推出了定制版三星GalaxyS23/24Ultra手机,起售价为8490美元,最贵的S24Ultra1TB版本售价来到了9490美元。Caviar的赛博朋克定制款三星GalaxyS23/24Ultra手机,整机看上去就是一辆棱角分明的次世代汽车,独特的造型十分的吸睛,同时也十分考验消费者的审美。国内售价为8899元起,顶配价格为11899元。
LaVi-Bridge官网体验入口 文本到图像生成模型驱动工具在线使用地址
LaVi-Bridge是一种设计用于文本到图像生成任务的桥接模型,可以连接各种预训练的语言模型和生成视觉模型。通过利用LoRA和适配器,LaVi-Bridge提供了一种灵活的插拔式方法,无需修改原始语言和视觉模型的权重。如果您需要在文本到图像生成任务中使用更先进的语言模型或视觉模型,LaVi-Bridge将是您的理想选择。
文生图框架LaVi-Bridge:无需训练,将不同模型结合使用
LaVi-Bridge项目是一个无需训练将不同的语言模型和生成视觉模型结合起来,以实现文本到图像的生成的项目。LaVi-Bridge是一个灵活的框架,它允许将不同的预训练语言模型和生成视觉模型集成到文本到图像生成的过程中。在短提示、长提示和组合提示下的文本对齐和图像质量指标上进行了广泛的评估,并通过大量可视化实验验证了LaVi-Bridge的有效性。
Meta发布全新AI自动剪辑视频工具Agents LAVE
AgentsLAVE是Meta发布的全新AI自动剪辑视频工具,采用AI技术实现简单短视频和广告视频的自动生成,无需人工干预。工具界面包括输入提示、素材库和视频时间轴Agents设计则指导编辑行动计划的执行。AgentsLAVE的发布将为视频编辑带来革命性变化,实现更高效、智能的视频剪辑流程。
上海人工智能实验室开源视频生成模型LaVie
LaVie是一款先进的文本到视频生成框架,为用户提供了强大的视频生成工具。通过采用级联潜在扩散模型,LaVie能够生成高质量、逼真的视频内容。视频插值和超分辨率:LaVie不仅能生成单一场景的视频支持对多个视频进行插值,以及将生成的视频进行超分辨率处理,提升视频质量。
索尼将推出PlayStation 6游戏主机:只考虑AMD方案
索尼计划推出下一代PlayStation6游戏主机,预计到2027年才会发售。PlayStation6项目已经开启了大约一年的时间,不过具体硬件规格还没有最终确定,索尼还在与游戏工作室探讨系统次世代游戏主机的系统问题。PlayStation6仍处于早期阶段,开发上的进度落后于微软,索尼考虑新款SoC采用chiplet设计,利用大型缓存更好地处理混合工作负载,同时大概率会使用GDDR7。
昆仑万维AI游戏《Club Koala》首次Beta版测试预计3月展开
昆仑万维在互动平台表示,公司旗下PlayforFun游戏工作室自研的首款AI游戏《ClubKoala》此前在德国科隆国际游戏展正式亮相。该游戏目前正处于高强度开发测试中,首次Beta版测试预计于2024年3月份展开。昆仑万维还计划将AI技术应用于UGC游戏的社交和音乐方面,进一步推动游戏行业的创新发展。
LARP:开放世界游戏的语言代理角色扮演
LARP是一个开创性的框架,旨在增强用户和语言代理在开放世界游戏中的交互。LARP框架包括了一个涵盖记忆处理和决策辅助功能的认知架构,一个具有反馈驱动可学习行动空间的环境交互模块,以及促进各种个性对齐的后处理方法。其模拟个性和适应动态环境的能力使其成为一个在多个领域具有潜在应用的多功能工具。