谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。
AI视野:Stability AI发布代码模型Stable Code3B;书生·浦语2.0正式开源;阿里推新项目MotionShop;Win11新增AI生成图像功能
StabilityAI公司发布了其首个新型人工智能模型,商业许可的StableCode3B。字节复旦团队提出metaprompts扩散模型图像理解力刷新SOTA过去一年,扩散模型逐渐在文生图领域扩展,能否处理视觉感知任务呢?字节跳动和复旦大学技术团队提出了简单有效方案,旨在提高模型在视觉识别任务中的性能。
M3 MacBook Pro发货:用户发现系统不能OTA更新
搭载M3芯片的MacBookPro已经上市发售,有14英寸和16英寸两种选择,国行版起售价是12999元。部分用户已经收到了这款新品,其中一位用户在社交平台上晒出了新款MacBookPro开箱照,发现系统不能OTA更新。目前的解决方案是,下载苹果助手,手动安装更新固件。
1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强
堪称改变游戏规则的视觉语言模型PaLI-3问世,引得大量科研人员关注。PaLI-3是谷歌最新推出的视觉语言模型,以更小的体量,更快的推理速度,达到了更强的性能。PaLI-3还未完全开源,但是开发人员已经发布了多语言和英文SigLIPBase、Large和So400M模型。
谷歌发布PaLI-3视觉语言模型 小体量达到SOTA!
谷歌最新发布的PaLI-3视觉语言模型在小体量下实现了SOTA性能,引起广泛关注。这款模型以更小的体量和更快的推理速度实现更强大的性能,是谷歌去年推出的多模态大模型PaLI的升级版。这一创新有望影响视觉语言模型的未来发展方向,提供更高效的解决方案。