谷歌发布 “Vlogger” 视频模型框架:单张图片生成 10 秒视频
谷歌最近发布了一项名为“Vlogger”的新视频框架,可以通过仅一张图片和录音即可生成一个本人演讲视频。这一框架基于扩散模型,包含音频到人体动作和文本到图像模型两部分。随着技术的不断进步和完善,相信Vlogger将在未来有更广泛的应用和发展。
每日AI:谷歌推AI视频VideoPrism;ChatGPT新增文本朗读功能;Stability AI推图片放大工具Creative Upscaler;Stable Diffusion安卓版客户端来了
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
谷歌紧急修复Gemini AI图片生成,因生成作品种族歧视问题
谷歌正在竭力修复其新的AI图片生成工具,因为有人声称该工具过度纠正了可能存在种族歧视的风险。谷歌的Gemini机器人在历史背景不符的情况下提供了各种性别和种族的图像。"他在那里写道:"这是对齐过程的一部分-对反馈的迭代。
谷歌推大语言模型VideoPoet:文本图片皆可生成视频和音频
GoogleResearch最近发布了一款名为VideoPoet的大型语言模型,旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型,但在生成连贯的大运动时仍存在瓶颈。VideoPoet作为大型语言模型,通过集成多种视频生成任务,为零镜头视频生成提供了新的可能性,为艺术创作、影视制作等领域带来了潜在的创新机遇。
尴尬!谷歌搜索展示AI生成图片替代了真实照片
最近有报道称,谷歌搜索结果中以色列传奇歌手卡玛卡维沃·奥莱的照片实际上是由人工智能生成的,这引发了人们对谷歌搜索结果准确性的担忧。谷歌搜索引擎在查询卡玛卡维沃·奥莱时,展示的顶部图片并非真实照片是一张由Reddit上的Midjourney社区生成的AI图像。虽然谷歌已采取措施提高图像搜索结果的可信度,但问题仍然存在,令人质疑人工智能技术在搜索引擎中的准确性和可靠性。
谷歌搜索无法区分 AI 生成的图片和真实图片,引发对真实内容展示的担忧
在听过IsraelKamakawiwoʻole动人心弦的《SomewhereOverTheRainbow》版本后,人们可能会想看看这位体型庞大的歌手长什么样。今天进行这样的搜索,你会看到的是他的AI生成版本。这些例子引发了严肃的问题,即在应对当前泛滥的AI生成图像时,搜索引擎将如何能够展示真实内容。
谷歌地图将利用AI帮助你找到偏僻的电动汽车充电桩
谷歌地图即将推出一些新的更新,旨在让寻找电动汽车充电站变得更加轻松。为了实现这一目标,它将大量依赖人工智能技术。该公司正在其旅行搜索工具中添加一个电动汽车充电器过滤器,以便电动汽车车主可以找到带有充电插座的地点。
谷歌推出3款免费 AI 图像编辑工具,Magic Editor、Photo Unblur 和 Magic Eraser
2023年10月4日,谷歌宣布将从5月15日起向所有谷歌相册用户免费提供三款生成式AI图像编辑工具:MagicEditor、PhotoUnblur和MagicEraser。MagicEditor能够轻松实现一键PS、调色和光影效果,让用户更加便捷地编辑图片。这也意味着用户无需再局限于专业的图片编辑软件,通过谷歌的AI工具,即可轻松实现多样化的编辑需求。
谷歌将免费提供3款,生成式AI图像编辑工具
4月11日,谷歌在官网宣布从5月15日起,将向所有谷歌相册用户免费提供MagicEditor、PhotoUnblur和MagicEraser三款生成式AI编辑工具。通过这三款强大的AI图像编辑工具,用户可以轻松将模糊的图片变高清,实现一键PS/调色/光影,删除图片多余内容等。现在通过MagicEraser可以一键完美去除它们了。
AI日报:suno劲敌Udio上线就被挤崩;谷歌将推AI视频Google Vids;蚂蚁CodeFuse推图生代码;ChatGPT之后增长最快的AI网站竟是它
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
谷歌发布图像局部重绘项目ObjectDrop 插入物体和环境完美融合
谷歌今天发布了一个名为ObjectDrop的图像局部重绘项目,其效果令人印象深刻。这个项目成功模拟了物体对场景的影响,包括遮挡、反射和阴影,实现了逼真的物体移除和插入。这一成果对于图像处理和计算机视觉领域来说,是一个重要的突破。
谷歌新研究成果:让大语言模型理解「图的语言」,性能提升60%
谷歌在ICLR2024上推出了一项重大成果:他们成功让大型语言模型学会理解「图的语言」,性能提升了高达60%。这项研究解决了LLMs在处理图形问题上的瓶颈,开启了图形数据与文本表示之间的新篇章。通过合理地将图形数据转换为文本表示,并结合适当的编码方式和任务类型,谷歌团队成功提升了LLMs在图形任务上的性能,为未来更深入的研究和应用打下了基础。
谷歌Gemini翻车内幕被曝光:内部管理混乱,生图机制过分 “多元化”
谷歌Gemini生图机制内幕曝光,显示其内部管理混乱,生图机制过分“多元化”。谷歌设置了一个架构体系,Gemini生成一张图实际上要经过三个模型,其中较小的模型根据公司的“多元化”政策重写用户的提示,第三个模型使用谷歌详尽的“多元化”政策文档生成合成数据。公司需要解决内部团队合作和领导力等方面的挑战,以重塑良好的工作环境和创新能力。
谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表
谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。
谷歌发布时间感知框架MUSCATEL:图像识别准确率提升15%
谷歌AI团队最近发布了一项名为MUSCATEL的全新时间感知框架,旨在对抗概念漂移问题,提升图像识别准确率。概念漂移一直是机器学习领域的难题,即数据分布随时间变化,影响模型持续有效性。谷歌发布的MUSCATEL方法为机器学习领域的概念漂移问题提供了一种创新的解决方案,为模型在大规模、动态数据集中持续准确地进行分类提供了新的思路和方法。
谷歌Chrome搜索建议升级:个性化、图像化搜索助您快速发现信息
谷歌今日宣布对Chrome浏览器中的搜索建议进行了重大改进,旨在为用户带来更加智能、个性化、丰富的搜索体验。作为这一变化的一部分,用户将能够从其他人的搜索内容中获取更有用的建议,查看更多的搜索建议图像,并在连接较差的情况下继续获得搜索建议。这一更新意味着用户即使在隐身模式下浏览时,仍将获得更多有用的建议。
谷歌Genie爆打Sora,基础世界模型AGI来了?一张草图即生一个世界,通才智能体迎来新革命
【新智元导读】真正的「基础世界模型」诞生了!谷歌团队发布110亿参数Genie「精灵」,从一张图片就能创造出可玩的虚拟世界,动作可控碾压Sora。AI已经杀到视频游戏领域了。她还在澳大利亚国立大学获得了工程学学士学位。
谷歌发布基础世界模型Genie:11B参数,单张图生成可交互的虚拟世界
谷歌最新发布了基础世界模型Genie,这一模型拥有110亿参数,能够生成可交互的虚拟世界。Genie的出现让人们看到了人工智能在虚拟世界的无限可能性。Genie的出现将进一步推动虚拟世界的发展,为人类带来更多惊喜和可能性。
谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道
谷歌Gemini震撼了业界,它是谷歌「最大、最有能力和最通用」的AI系统,号称第一个原生多模态大模型,能力超越GPT-4,也被认为是谷歌反击微软和OpenAI的强大工具。在2月8日,谷歌还把自家对标ChatGPT的服务Bard更名为Gemini,以着重体现新使命——旨在提供对「最强模型系列」的访问。这或许也体现了OpenAI一直强调安全性,及其建立RedTeamingNetwork的先见之明。
谷歌暂停AI图像生成功能:承认存在技术缺陷
谷歌周五承认,其人工智能工具Gemini在生成历史人物图像时出现错误,导致图像显示出明显的种族偏差。本周早些时候,媒体发现Gemini生成了不同种族的纳粹分子和美国开国元勋的图像。谷歌将继续努力改进人工智能技术,以克服这些挑战。