谷歌推出通用AI代理SIMA:3D游戏世界的全能AI玩家
正文:近日,谷歌DeepMind的研究团队宣布推出一款面向3D虚拟环境的通用AI代理——SIMA。这一创新成果标志着AI技术在游戏领域的应用迈出了重要一步。谷歌DeepMind的研究人员表示,他们将继续迭代和提升SIMA的通用代理能力,期望未来SIMA能在现实生活中为用户提供更多帮助。
港大开发V-IRL平台:将真实世界地图纳入虚拟环境 给AI Agent完整的一生!
港大和NYU的研究团队合作开发了一个名为V-IRL的平台,该平台将真实世界的地图、街景等丰富信息融入到虚拟环境中,为AIAgent提供了更真实和完整的生活体验。这项研究的核心在于构建一个可扩展的平台,利用地理信息和街景图像等API将AI智能体嵌入到真实城市环境中。这项研究也展示了人工智能在未来城市规划、个人助手、生活辅助工具等领域的巨大潜力,为我们进入智能体时代打下了坚实的基础。
谷歌Genie爆打Sora,基础世界模型AGI来了?一张草图即生一个世界,通才智能体迎来新革命
【新智元导读】真正的「基础世界模型」诞生了!谷歌团队发布110亿参数Genie「精灵」,从一张图片就能创造出可玩的虚拟世界,动作可控碾压Sora。AI已经杀到视频游戏领域了。她还在澳大利亚国立大学获得了工程学学士学位。
谷歌发布基础世界模型Genie:11B参数,单张图生成可交互的虚拟世界
谷歌最新发布了基础世界模型Genie,这一模型拥有110亿参数,能够生成可交互的虚拟世界。Genie的出现让人们看到了人工智能在虚拟世界的无限可能性。Genie的出现将进一步推动虚拟世界的发展,为人类带来更多惊喜和可能性。
混合现实社交平台Wooorld 将3D世界地图带入用户的房间
Wooorld,一款基于MetaQuest混合现实技术的社交平台,为用户带来了全新的虚拟体验。通过混合现实技术,Wooorld将一个3D的世界地图带入用户的房间,不仅允许用户探索世界提供了多样化的游戏功能,其中包括能够将用户随机传送到170个国家不同位置的有趣游戏。这使得Wooorld成为一款兼顾探险和游戏的综合性社交平台,为用户带来了全新的虚拟社交体验。
全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步
生成式人工智能发展的核心关键词,就是「大」。人们逐渐接受了强化学习先驱RichSutton充分利用算力「大力出奇迹」的思潮,庞大的数据量是AI模型展现出惊人智慧的核心原因。也许在未来,通用化的机器人大脑可以驱动任何机器人,全球所有机器人都可以从共享的数据中受益。
谷歌地图引入生成式人工智能,更精准地探索城市之美
谷歌正在向其地图应用引入生成式人工智能,旨在使用户更轻松地发现身边的新地方。不再仅仅搜索咖啡店或书店,新的人工智能工具允许用户提出更具体的需求,比如在旧金山寻找“带有复古氛围的地方”。这一新功能的推出将使用户更加便利地在城市中发现独特的场所,为他们的探索增添更多乐趣。
新版本更新!谷歌地图视角全新设计
谷歌近日发布了车机软件AndroidAuto的10.7版本更新。主要变化包括调整了谷歌地图的视角以及优化了界面按钮的排布方式。这些改进都希望能够提供更好的用户体验。
谷歌推出3款免费 AI 图像编辑工具,Magic Editor、Photo Unblur 和 Magic Eraser
2023年10月4日,谷歌宣布将从5月15日起向所有谷歌相册用户免费提供三款生成式AI图像编辑工具:MagicEditor、PhotoUnblur和MagicEraser。MagicEditor能够轻松实现一键PS、调色和光影效果,让用户更加便捷地编辑图片。这也意味着用户无需再局限于专业的图片编辑软件,通过谷歌的AI工具,即可轻松实现多样化的编辑需求。
谷歌将免费提供3款,生成式AI图像编辑工具
4月11日,谷歌在官网宣布从5月15日起,将向所有谷歌相册用户免费提供MagicEditor、PhotoUnblur和MagicEraser三款生成式AI编辑工具。通过这三款强大的AI图像编辑工具,用户可以轻松将模糊的图片变高清,实现一键PS/调色/光影,删除图片多余内容等。现在通过MagicEraser可以一键完美去除它们了。
AI日报:suno劲敌Udio上线就被挤崩;谷歌将推AI视频Google Vids;蚂蚁CodeFuse推图生代码;ChatGPT之后增长最快的AI网站竟是它
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
谷歌发布图像局部重绘项目ObjectDrop 插入物体和环境完美融合
谷歌今天发布了一个名为ObjectDrop的图像局部重绘项目,其效果令人印象深刻。这个项目成功模拟了物体对场景的影响,包括遮挡、反射和阴影,实现了逼真的物体移除和插入。这一成果对于图像处理和计算机视觉领域来说,是一个重要的突破。
谷歌新研究成果:让大语言模型理解「图的语言」,性能提升60%
谷歌在ICLR2024上推出了一项重大成果:他们成功让大型语言模型学会理解「图的语言」,性能提升了高达60%。这项研究解决了LLMs在处理图形问题上的瓶颈,开启了图形数据与文本表示之间的新篇章。通过合理地将图形数据转换为文本表示,并结合适当的编码方式和任务类型,谷歌团队成功提升了LLMs在图形任务上的性能,为未来更深入的研究和应用打下了基础。
谷歌发布 “Vlogger” 视频模型框架:单张图片生成 10 秒视频
谷歌最近发布了一项名为“Vlogger”的新视频框架,可以通过仅一张图片和录音即可生成一个本人演讲视频。这一框架基于扩散模型,包含音频到人体动作和文本到图像模型两部分。随着技术的不断进步和完善,相信Vlogger将在未来有更广泛的应用和发展。
谷歌Gemini翻车内幕被曝光:内部管理混乱,生图机制过分 “多元化”
谷歌Gemini生图机制内幕曝光,显示其内部管理混乱,生图机制过分“多元化”。谷歌设置了一个架构体系,Gemini生成一张图实际上要经过三个模型,其中较小的模型根据公司的“多元化”政策重写用户的提示,第三个模型使用谷歌详尽的“多元化”政策文档生成合成数据。公司需要解决内部团队合作和领导力等方面的挑战,以重塑良好的工作环境和创新能力。
谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表
谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。
谷歌发布时间感知框架MUSCATEL:图像识别准确率提升15%
谷歌AI团队最近发布了一项名为MUSCATEL的全新时间感知框架,旨在对抗概念漂移问题,提升图像识别准确率。概念漂移一直是机器学习领域的难题,即数据分布随时间变化,影响模型持续有效性。谷歌发布的MUSCATEL方法为机器学习领域的概念漂移问题提供了一种创新的解决方案,为模型在大规模、动态数据集中持续准确地进行分类提供了新的思路和方法。
谷歌Chrome搜索建议升级:个性化、图像化搜索助您快速发现信息
谷歌今日宣布对Chrome浏览器中的搜索建议进行了重大改进,旨在为用户带来更加智能、个性化、丰富的搜索体验。作为这一变化的一部分,用户将能够从其他人的搜索内容中获取更有用的建议,查看更多的搜索建议图像,并在连接较差的情况下继续获得搜索建议。这一更新意味着用户即使在隐身模式下浏览时,仍将获得更多有用的建议。
谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道
谷歌Gemini震撼了业界,它是谷歌「最大、最有能力和最通用」的AI系统,号称第一个原生多模态大模型,能力超越GPT-4,也被认为是谷歌反击微软和OpenAI的强大工具。在2月8日,谷歌还把自家对标ChatGPT的服务Bard更名为Gemini,以着重体现新使命——旨在提供对「最强模型系列」的访问。这或许也体现了OpenAI一直强调安全性,及其建立RedTeamingNetwork的先见之明。
每日AI:谷歌推AI视频VideoPrism;ChatGPT新增文本朗读功能;Stability AI推图片放大工具Creative Upscaler;Stable Diffusion安卓版客户端来了
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。