谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。谷歌研究人员表示,ScreenAI模型还需要在一些任务上进行更多研究,以缩小与GPT-4和Gemini等更大模型的差距。
StabilityAI API最新功能 可通过文字对指定区域进行编辑替换
StabilityAIAPI的最新功能提供了一种通过文字对图片指定区域进行编辑替换的能力。这意味着用户可以使用文字描述的方式,精准地指定图片中需要编辑的区域,并进行相应的替换操作。随着技术的不断发展和更新,我们期待看到StabilityAIAPI将为用户带来更多创新的功能和体验。
追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!
就在Sora疯狂刷屏那天有两款重磅产品发布:一个是谷歌的Gemini1.5,首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。在功能方面V-JEPA与Sora有很多相似之处,例如,都具备让AI学会如何通过自我监督学习认识、模拟世界,以提升生成视频的质量、表示学习方法和扩大视频训练数据范围。但Meta表示,下一步,将会把V-JEPA与音频相结合使用,并且可以充
AI视野:OpenAI公布Sora技术报告;Meta首发AI视频模型V-JEPA;ComfyUI发布最新3D Pack;Nomic AI 发布首个完全开源的长文本嵌入模型
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
Meta首发AI视频模型V-JEPA 可用人类的理解方式看世界
深度学习领域泰斗LeCun在WGS峰会上怒斥Sora模型不能真正理解物理世界,引起广泛关注。仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界,与基于世界模型的因果预测有本质区别。V-JEPA的发布不仅是对Sora的回击,更展示了Meta公司在AI领域的先进技术,为实现具身AI技术和未来增强现实眼镜提供了有力支持。
LeCun怒斥Sora不能理解物理世界!Meta首发AI视频「世界模型」V-JEPA
【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。Sora一经面世,瞬间成为顶流,话题热度只增不减。它仍然是插值潜在空间的嵌入,到目前为止你还不能以这种方式构建「世界模型」。
FF完成近1600项OTA功能升级 AI助理FF aiPal功能进一步优化
FF今日宣布,FF912.0自去年开始交付以来,完成了首次大版本远程升级。此次升级包括752项新增功能与846项功能优化。此次升级还包括对人工智能助理FFaiPal功能的进一步优化和改进。
SpaceX发布新一代Starlink终端 结构优化视野提升网络增强
科技公司SpaceX最近悄然为其星链卫星互联网服务推出了一款新的标准终端。与早期型号相比,新终端在外形和功能上都有显著优化。随着产能提升,这款终端有望在未来几个月内面向更多用户开放和推广。
贾跃亭旗下法拉第未来宣布推出AI产品FF aiPal Beta
法拉第未来推出生成式AI产品aiPalBeta,号称“极致贴心”。这是一款出行领域的生成式AI产品,利用大语言模型,可以为用户提供个性化的AI体验。该产品将首先向“共创官”提供测试版本,用户可以通过官网上的“FFLabs”申请测试体验。
贾跃亭旗下FF推出AI产品「FF aiPal Beta」 可提供生活服务
贾跃亭旗下法拉第未来发文称,作为行业先驱和第一家集成ChatGPT技术的汽车制造商,FF推出了另一项革命性产品:FFaiPalBeta,这是出行领域的GenerativeAI产品,利用大语言模型的先进技术,提供令人耳目一新的个性化人工智能体验。FFaiPal为用户创造了极致贴心个性化AI体验,在屏幕侧边栏根据实时地理位置为用户提示周边的生活服务,例如推荐附近米其林餐厅等。当用户开车前往�
蚂蚁SOFAStack在云栖大会发布新一代云原生PaaS平台
11月1日,在云栖大会上,蚂蚁集团正式发布CodeFuse全面加持的SOFAStack5.0升级版本,向企业提供全方位研发运维智能助手相关能力。这是继蚂蚁集团在外滩大会发布代码大模型CodeFuse之后,首次公布面向行业的商业化产品进展。SOFAStack是国内部署云原生技术最广泛的平台之一,基于支付宝、蚂蚁集团各项业务需求进行研发迭代,并服务于超100家银行迈向云原生转型,已经构建了完�
1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强
堪称改变游戏规则的视觉语言模型PaLI-3问世,引得大量科研人员关注。PaLI-3是谷歌最新推出的视觉语言模型,以更小的体量,更快的推理速度,达到了更强的性能。PaLI-3还未完全开源,但是开发人员已经发布了多语言和英文SigLIPBase、Large和So400M模型。
谷歌发布PaLI-3视觉语言模型 小体量达到SOTA!
谷歌最新发布的PaLI-3视觉语言模型在小体量下实现了SOTA性能,引起广泛关注。这款模型以更小的体量和更快的推理速度实现更强大的性能,是谷歌去年推出的多模态大模型PaLI的升级版。这一创新有望影响视觉语言模型的未来发展方向,提供更高效的解决方案。