谷歌发布 “Vlogger” 视频模型框架:单张图片生成 10 秒视频
谷歌最近发布了一项名为“Vlogger”的新视频框架,可以通过仅一张图片和录音即可生成一个本人演讲视频。这一框架基于扩散模型,包含音频到人体动作和文本到图像模型两部分。随着技术的不断进步和完善,相信Vlogger将在未来有更广泛的应用和发展。
每日AI:谷歌推AI视频VideoPrism;ChatGPT新增文本朗读功能;Stability AI推图片放大工具Creative Upscaler;Stable Diffusion安卓版客户端来了
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
谷歌紧急修复Gemini AI图片生成,因生成作品种族歧视问题
谷歌正在竭力修复其新的AI图片生成工具,因为有人声称该工具过度纠正了可能存在种族歧视的风险。谷歌的Gemini机器人在历史背景不符的情况下提供了各种性别和种族的图像。"他在那里写道:"这是对齐过程的一部分-对反馈的迭代。
谷歌推大语言模型VideoPoet:文本图片皆可生成视频和音频
GoogleResearch最近发布了一款名为VideoPoet的大型语言模型,旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型,但在生成连贯的大运动时仍存在瓶颈。VideoPoet作为大型语言模型,通过集成多种视频生成任务,为零镜头视频生成提供了新的可能性,为艺术创作、影视制作等领域带来了潜在的创新机遇。
尴尬!谷歌搜索展示AI生成图片替代了真实照片
最近有报道称,谷歌搜索结果中以色列传奇歌手卡玛卡维沃·奥莱的照片实际上是由人工智能生成的,这引发了人们对谷歌搜索结果准确性的担忧。谷歌搜索引擎在查询卡玛卡维沃·奥莱时,展示的顶部图片并非真实照片是一张由Reddit上的Midjourney社区生成的AI图像。虽然谷歌已采取措施提高图像搜索结果的可信度,但问题仍然存在,令人质疑人工智能技术在搜索引擎中的准确性和可靠性。
谷歌搜索无法区分 AI 生成的图片和真实图片,引发对真实内容展示的担忧
在听过IsraelKamakawiwoʻole动人心弦的《SomewhereOverTheRainbow》版本后,人们可能会想看看这位体型庞大的歌手长什么样。今天进行这样的搜索,你会看到的是他的AI生成版本。这些例子引发了严肃的问题,即在应对当前泛滥的AI生成图像时,搜索引擎将如何能够展示真实内容。
谷歌Chrome搜索建议升级:个性化、图像化搜索助您快速发现信息
谷歌今日宣布对Chrome浏览器中的搜索建议进行了重大改进,旨在为用户带来更加智能、个性化、丰富的搜索体验。作为这一变化的一部分,用户将能够从其他人的搜索内容中获取更有用的建议,查看更多的搜索建议图像,并在连接较差的情况下继续获得搜索建议。这一更新意味着用户即使在隐身模式下浏览时,仍将获得更多有用的建议。
InstantMesh:只需10秒就能从图片转3D模型
InstantMesh是一项突破性的技术,能够从单张图像快速生成高质量的三维网格模型。这项技术利用了前馈框架,结合了多视图扩散模型和基于大规模重建模型的稀疏视图重建技术,极大地优化了3D资产的创建过程。InstantMesh的出现,预示着3D建模和可视化领域将迎来新的变革,它将极大地提高工作效率,降低技术门槛,使得更多的人能够参与到3D内容的创作中来。
AI文生图模型PixArt-sigma,可以生成4K分辨率图片
PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目,是一个强大的文本到图像生成模型,通过弥散Transformer进行弱到强训练,旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练,从能够更好地生成高质量的4K分辨率图像。在应用方面,PixArt-Σ是一款强大的文本到图像生成工具,具有广泛的应用场景,可以满足艺术、设计、游戏开发、营销
EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频
由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份
多模态语言模型Reka Core:可分析图片、视频、音频 评测得分与GPT-4接近
RekaAI近日宣布推出其最新力作——RekaCore,这是一款前沿的多模态语言模型,拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频,评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持,Reka已经准备好迎接更广泛的挑战,展望未来,我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。
无限重生图片样式,999次也没问题!
当我们使用Midjourney、DALL·E3、StableDifusion等模型生成图片后,想在保留主体大框架的情况下改变图片的样式,最直接的方法就是通过PS、AdobeLightroom、DxOPhotoLab等专业修图软件。但这对于很多人来说不太方便,也不符合AI时代的高效率处理方法。有兴趣的小伙伴可以去试试。
马斯克XAI发布Grok-1.5 Vision 多模态模型 可处理文本和图片信息
在人工智能领域,多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用,我们有理由相信,它将在多个领域发挥重要作用,推动人工智能技术向前发展。
facet ai怎么用?AI图片编辑修图工具Facet AI详细使用教程(附产品入口)
产品简介:FacetAI是一款创新的图像编辑工具,以实时图像生成和精确控制图像元素为核心优势,为广告制作和产品图像设计领域带来革命性变化。用户可通过直观的画布操作实现对图像元素的精准控制,提高工作效率。侧边栏第二个按钮还支持对生成的图片进行风格,色调,光线的调整,这里就不一一赘述,大家可以根据自己的喜好来调整。
OpenAI发布GPT-4-Turbo 正式版 可识别图片
OpenAI发布了GPT-4-Turbo正式版,这是一个带有视觉能力的模型,能够处理128k的上下文。这个模型现在已经全面开放,可以通过“gpt-4-turbo”来使用,最新版本为“gpt-4-turbo-2024-04-09”。GPT-4-Turbo是一个功能强大的模型,它的发布将为AI领域带来新的可能。
AI图片编辑工具Facet怎么用?Facet AI详细使用教程(附产品入口)
AI图像编辑软件DesignEdit 像PS一样分图层处理图片
DesignEdit是一款突破性的图像编辑软件,它采用了设计领域中常见的图层概念,为用户带来了一种全新的空间感知图像编辑体验。通过将复杂的图像编辑任务分解为多层潜在的编辑操作,DesignEdit实现了对象移除、多对象编辑、镜头平移和缩放、排版编辑以及跨图像合成等一系列高级编辑功能。这不仅为创意设计提供了无限的可能性,也为图像合成和视觉特效制作带来了新的解决方案。
Nightshade:使AI模型在未经许可的情况下无法训练图片
站长之家(ChinaZ.com)4月9日 消息:据报道,芝加哥大学的研究人员开发了一种名为Nightshade的工具,旨在防止未经许可的AI图像生成。该工具可以使AI图像生成器无法使用未经许可的图像进行训练,从而保护了艺术家和版权所有者的作品。Nightshade的工作原理是在图像中添加隐藏信息,这些信息对人眼不可见。当像Stable Diffusion这样的AI图像生成器尝试使用这些图像进行训练时,这些
苹果斥资5000万美元授权数百万张Shutterstock图片用于训练AI模型
苹果近日宣布与Shutterstock达成协议,授权使用数百万张图片来训练其人工智能模型。除了苹果之外,谷歌、Meta和亚马逊等科技公司也曾与Shutterstock达成类似协议,用于发展视觉AI引擎。其打算开发能够尽可能使用设备上技术的LLMs。
GRM:只需少量图片,就能在0.1秒内创建3D模型
一款名为GRM的大型高斯重建模型引起了广泛关注。GRM是一种用于3D重建和生成的技术,通过有效整合多视角信息,它能够在极短的时间内重建出精确的3D模型。随着技术的不断发展,我们有理由相信,GRM将为3D建模技术的应用带来更多可能性。