谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。
AI视野:Stability AI发布代码模型Stable Code3B;书生·浦语2.0正式开源;阿里推新项目MotionShop;Win11新增AI生成图像功能
StabilityAI公司发布了其首个新型人工智能模型,商业许可的StableCode3B。字节复旦团队提出metaprompts扩散模型图像理解力刷新SOTA过去一年,扩散模型逐渐在文生图领域扩展,能否处理视觉感知任务呢?字节跳动和复旦大学技术团队提出了简单有效方案,旨在提高模型在视觉识别任务中的性能。
M3 MacBook Pro发货:用户发现系统不能OTA更新
搭载M3芯片的MacBookPro已经上市发售,有14英寸和16英寸两种选择,国行版起售价是12999元。部分用户已经收到了这款新品,其中一位用户在社交平台上晒出了新款MacBookPro开箱照,发现系统不能OTA更新。目前的解决方案是,下载苹果助手,手动安装更新固件。
1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强
堪称改变游戏规则的视觉语言模型PaLI-3问世,引得大量科研人员关注。PaLI-3是谷歌最新推出的视觉语言模型,以更小的体量,更快的推理速度,达到了更强的性能。PaLI-3还未完全开源,但是开发人员已经发布了多语言和英文SigLIPBase、Large和So400M模型。
谷歌发布PaLI-3视觉语言模型 小体量达到SOTA!
谷歌最新发布的PaLI-3视觉语言模型在小体量下实现了SOTA性能,引起广泛关注。这款模型以更小的体量和更快的推理速度实现更强大的性能,是谷歌去年推出的多模态大模型PaLI的升级版。这一创新有望影响视觉语言模型的未来发展方向,提供更高效的解决方案。
包括Spotify等34家公司联名要求欧盟对苹果公司进行制裁
包括Spotify、EpicGames等34家开发商和协会联名致信欧盟委员会,对苹果公司提出的欧洲新规表达了强烈的不满。他们认为苹果所做的各项调整只是为了应对欧盟的审查,不符合《数字市场法案》的要求和目的,是一种“戏耍”。这次联名行动显示了开发商对苹果公司行为的强烈不满,也凸显了数字市场法案对于平衡数字市场竞争和保护用户权益的重要性。
性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight
【新智元导读】SPF算法是一种基于状态序列频域预测的表征学习方法,利用状态序列的频域分布来显式提取状态序列数据中的趋势性和规律性信息,从辅助表征高效地提取到长期未来信息。马尔科夫决策过程在具体分析两种结构性信息之前,我们先介绍产生状态序列的马尔科夫决策过程的相关定义。,使预测器的输出能逼近真实状态序列的傅里叶变换,从鼓励表征编码器提取�
Stability AI发布3D生成模型TripoSR 不用1秒就能生成高质量3D模型
StabilityAI和TripoAI昨晚联合发布了一款名为TripoSR的3D生成模型。这款模型能够在不到1秒的时间内生成高质量的3D模型,这一创新技术的推出无疑将为3D建模领域带来革命性的变革。StabilityAI和TripoAI的这次合作,推出的TripoSR3D生成模型,不仅在技术上取得了突破,也为3D建模领域带来了新的可能性。