谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
随着ChatGPT的出现,大语言模型在生成连贯文本和遵循指令方面获得了巨大技术突破。然后在推理和解决复杂内容方面,面临内容不准确、安全等难题。每次只需要一个查询获得相似性能的集成方法需要40倍的查询量,也就是说可以节省很多算力资源。
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind的研究人员推出了一种面向3D环境的通用AI代理——SIMA。SIMA无需访问游戏的源代码,也不需要定制的API。研究人员表示,未来,会持续迭代SIMA的通用代理能力,希望可以在实际生活中帮助用户做更多的事情。
谷歌推出通用AI代理SIMA:3D游戏世界的全能AI玩家
正文:近日,谷歌DeepMind的研究团队宣布推出一款面向3D虚拟环境的通用AI代理——SIMA。这一创新成果标志着AI技术在游戏领域的应用迈出了重要一步。谷歌DeepMind的研究人员表示,他们将继续迭代和提升SIMA的通用代理能力,期望未来SIMA能在现实生活中为用户提供更多帮助。
今日AI:Sora计划在今年内发布;辛巴要暂停带货学AI;国产Sora文生视频工具Etna发布;谷歌推EMO同款对口型工具;
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
EMO同款?谷歌推对口型视频工具VLOGGER 还具备视频编辑功能
科技巨头们正在竞相开发能够从单张照片生成会说话的人类视频的技术。继阿里巴巴推出其EMO项目后,Google也推出了类似的项目VLOGGER。与阿里巴巴的EMO相比,VLOGGER在视频生成的效果上还有待提升。
又整活儿?谷歌推Agents SIMA 可让角色在任何3D游戏场景中蹦跶
谷歌推出了一款名为AgentsSIMA的新型AI系统,专门设计用于在任何3D游戏中自主行动。这种系统能够根据自然语言指令在多种视频游戏设置中执行任务,标志着AI代理展示了在广泛游戏世界中理解指令并执行任务的能力,类似于人类的操作方式。随着在更多环境中的训练以及模型性能的提升,SIMA有望成长为一个更加全能和智能的AI助手,服务于现实世界中的各种任务。
每日AI:谷歌推AI视频VideoPrism;ChatGPT新增文本朗读功能;Stability AI推图片放大工具Creative Upscaler;Stable Diffusion安卓版客户端来了
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
谷歌推出Android机器人公仔:售价超百元 销量火爆
谷歌推出了一款TheBot”安卓机器人公仔,售价为16美元。这款与DeadZebra团队多年来销售的公仔类似,这款公仔的手臂可以摆动,更符合谷歌去年推出的全新3D安卓吉祥物。除了机器人形象公仔,谷歌商品店还提供水瓶、衬衫、钢笔、马克杯、贴纸、别针、袜子和太阳镜等各式各样的Android周边产品。
谷歌推具备空间推理能力的视觉语言模型SpatialVLM
谷歌最新研究提出SpatialVLM,旨在解决视觉语言模型缺乏空间推理能力的问题。视觉语言模型在理解目标在三维空间中位置或关系时存在困难,研究者通过借鉴人类空间推理能力的思路,提出了这一新方法。这一研究成果有望推动视觉语言模型在未来的发展方向上取得更大突破,为人工智能领域带来新的进步。
谷歌推出Android 15开发者预览版:功耗管理更强大
谷歌正式发布了Android15开发者预览版,在功耗管理以及隐私上有所改进。谷歌计划在春季初推出公开测试版。谷歌开始为第三方应用程序进行更好的相机优化,在弱光环境下拍摄的图像将被实时处理,提供明亮的预览,第三方应用也可以从改进的预览图像中受益。
谷歌推出ASPIRE框架 让大模型具备自我判断意识
谷歌最近推出了一项名为ASPIRE的自适应评估框架,旨在帮助大型语言模型在面对置信度较低的样本时做出正确的判断。这个框架的核心技术思路是基于自我评估的选择性预测,通过任务定向微调、答案采样和自我评估学习三大模块来实现。随着这一框架的不断完善和应用,相信大型语言模型在各个领域的表现将会更加出色,为人们带来更好的体验和服务。
谷歌推时间序列预测模型TimesFM 可预测股市、天气等
Google研究团队最近推出了一款名为TimesFM的时间序列预测模型。时间序列预测是一种通过分析过去的数据来预测未来事件发生的方法,广泛应用于商业、金融和科研等多个领域,帮助人们做出更明智的决策。Google计划在GoogleCloudVertexAI中提供TimesFM,使得外部客户能够轻松地集成和使用这个强大的时间序列预测工具,无需深入了解模型的内部工作机制。
谷歌推出 ImageFX:具有表达芯片的文本到图像工具
谷歌正在推出一系列关于生成人工智能的更新,包括一个新的文本到图像工具。ImageFX的不同之处在于它有一个具有“表达芯片”功能的界面。谷歌表示大多数国家的人们都可以免费用Bard生成英文图像,这些图像将包含SynthID水印。
AI视野:谷歌推小模型MobileDiffusion;Midjourney测试风格一致性功能;字节跳动推AI Bot开发平台扣子;LLaVA-1.6赶超Gemini Pro
文本生成高清、连贯视频,谷歌推出时空扩散模型
谷歌研究人员推出了创新性文本生成视频模型——Lumiere。与传统模型不同的是,Lumiere采用了一种时空扩散U-Net架构,可以在单次推理中生成整个视频的所有时间段,能明显增强生成视频的动作连贯性,并大幅度提升时间的一致性。这种整合过程考虑了时间窗口之间的关联性,保证了视频生成的连贯性和视觉一致性。
文本直接在3D场景中生成对象,谷歌推出InseRF模型
随着大模型技术的飞速发展,基于语言和视觉的3D场景编辑方法取得了十足进步,如Instruct-NeRF2NeRF在修改和场景控制方面展示了强大功能。但在内容生成方面依然面临困难,例如,在3D场景中直接生成一只3D蝴蝶。值得一提的是,InseRF只需要一个粗略的视角框,就可实现精确的对象定位,这对于用户来说非常便捷。
用大模型为病人提供医疗咨询,谷歌推出AMIE模型
医生与患者之间的对话是确诊病情、建立有效治疗方案的关键所在。现实中并不是所有人都能享受丰厚的医疗资源与医生进行深度咨询。根据专科医生的评估,AMIE在诊断准确性和32个评估维度中有28个优于初级保健医生;根据患者的评估,AMIE在26个评估维度中有24个维度表现出更好的诊断结果。
谷歌推出ASPIRE框架 用于增强大模型的选择性预测能力
在人工智能领域中,大型语言模型的重要性不言喻。传统的LLMs在预测过程中存在困难,无法对生成的答案的准确性进行自我评估。引入ASPIRE框架填补了这一空白,通过对LLMs进行微调和自我评估训练,提高了LLMs的选择性预测能力,为LLMs的应用提供了更高的可靠性和可信度。
AI视野:谷歌推几何模型Alpha Geometry;三星发布AI手机Galaxy S24;Runway更新运动笔刷功能;Midjourney v6下周补齐缩放平移等功能
谷歌推数学几何模型Alpha Geometry 解题能力接近奥数金牌选手
谷歌推出了新的面向数学几何领域的模型AlphaGeometry,数学几何能力已接近人类奥林匹克金牌选手的水平。特别值得一提的是:它的训练是基于合成数据不是现有的数据。这无疑将为未来人工智能的发展,尤其是对于解决大语言模型幻觉和语料不足的问题提供新的思路。