只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用ScoreDistillationSampling的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡国立大学、武汉大学等机构的研究人员提出了Repaint123,以减轻多视角偏差、纹理退化,并加速生成过程。图4:Repaint123两阶段单视角3D生成框架实验�
中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM
随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的Drive-WM模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。这一技术突破有望推动自动驾驶领域迈向新的里程碑。
StoryDiffusion:保持角色一致,可生成多图漫画和长视频
南开大学HVision团队开发了StoryDiffusion,一款能够创造神奇故事的工具。StoryDiffusion可以保持角色一致,生成多图漫画和长视频。该项目发布了生成漫画部分的源码。
谷歌DeepMind新方法Gecko,为测试AI图像生成器引入严格新标准
谷歌DeepMind最近的研究示了当前我们对文本到图像AI模型性能评估的隐藏局限性。在其发布在预印本服务器ariv上的研究中,他们引入了一种全新的方法称为“Gecko”,承诺提供一个更全和可靠的基准,以评估这一蓬勃发展的技术。Gecko为我们展示了如何做到这一。
InstantMesh:新AI框架可在10秒内从2D图像生成高质量3D网格
根据研究团队发表的预印本文章,InstantMesh是由腾讯PCGARC实验室和上海科技大学的研究人员开发的人工智能框架,能够在仅需10秒的时间内,从单个2D图像生成高质量的3D网格。该开源框架由多视图扩散模型和3D网格重建模型组成,通过使用不同角度合成的3D视图来实现高质量的重建。这一技术有望显著提升3D行业生产力,尤其在视频游戏开发领域。
旷视发布HiDiffusion,SD生成速度更快,图片质量更高
最近,旷视发布的HiDiffusion技术,近日引起业界广泛关注。这一新技术只需一行代码,便能显著提升SD(扩散模型)生成图像的分辨率和生成速度,允许图像生成的分辨率高达4096×4096,同时将图像生成速度提高1.5至6倍。值得一提的是,HiDiffusion不仅支持所有SD模型,也兼容SD模型的下游模型,如Playground。
Photoshop测试版推出AI图像生成功能:用户仅需提供简单文本
AdobePhotoshop的最新测试版现已引入一项革命性的功能,允许用户通过简单的文本提示,利用人工智能技术生成图像。该功能的核心在于Adobe新发布的生成式AI模型系列FireflyImage3。包括谷歌和微软在内的多家科技巨头都在AI领域取得了显著的进展和突破。
Adobe发布新一代图像生成模型Firefly Image3,号称迄今为止最好
Adobe发布了Firefly图像生成模型的最新版本,名为FireflyImage3,声称具有“摄影细节”的图像生成能力。相比之前的版本,这一第三代模型在图像生成能力上有了显著的改进。即使是新手用户也可以在Photoshop中游刃有余,并更快地成为高级用户,PhotoshopgentechAI产品管理总监JohnMetzger表示。
Adobe Firefly3 模型更新!可垫图生成 创成式填充强得离谱!
Adobe公司最近发布了全新的FireflyImage3Model。这款新模型在图像处理方面的能力大幅提升,包括改进的图形处理能力、更精准的文本提示解释,甚至能够指导图像的构图。无论是在图像处理能力、用户控制能力是对复杂提示的理解上,新模型都有显著的提升。
Midjourney发布random功能 可基于提示词生成完全随机的图像风格
Midjourney发布了一个有趣的功能,可以基于提示词生成完全随机的图像风格。使用方式:在提示词后添加--srefrandom,如果找到了喜欢的风格可以通过--srefurl将风格迁移到新图片上。无论是个人创作还是与他人合作,Midjourney的新功能都将为用户提供更多创作灵感和交流的机会。
Meta 在 WhatsApp 中加入实时AI图像生成功能
当用户在与MetaAI的聊天中开始输入文本到图像的提示时,将看到随着添加更多关于想创建的内容的细节,图像如何变化。在Meta分享的示例中,一个用户输入了提示:“想象一场在火星上进行的足球比赛。这一新功能是Meta在其所有应用程序中推出AI功能的一部分,包括WhatsApp、Instagram、Facebook和Messenger。
OpenAI图像生成器DALL-E2停止服务,DALL-E3接替其位置
OpenAI宣布关闭DALL-E2图像生成器服务,由其后续产品DALL-E3替代。DALL-E2在2022年4月面世后不久,以其能够根据简单文本提示生成高质量图像一举成名。但为了安全起见,大家可能需要下载自己特别喜欢的任何内容。
AI文生图模型PixArt-sigma,可以生成4K分辨率图片
PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目,是一个强大的文本到图像生成模型,通过弥散Transformer进行弱到强训练,旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练,从能够更好地生成高质量的4K分辨率图像。在应用方面,PixArt-Σ是一款强大的文本到图像生成工具,具有广泛的应用场景,可以满足艺术、设计、游戏开发、营销
EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频
由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份
Spline发布3D生成工具AI 3D Generation 支持文/图生3D模型及混合编辑3D模型
Spline的最新3D生成工具的发布,标志着3D设计领域的一次重大进步。这款在线3D编辑工具不仅支持从文字和图片生成3D模型能够混合和编辑3D模型,为用户提供了一个全面强大的3D设计解决方案。这意味着用户可以始终接触到行业的最新趋势,并将这些新功能应用到自己的项目中,保持创作的前沿性和创新性。
北大字节开辟图像生成新范式,超越Sora核心组件DiT,不再预测下一个token
北大和字节联手搞了个大的:提出图像生成新范式,从预测下一个token变成预测下一级分辨率,效果超越Sora核心组件DiffusionTransformer。并且代码开源,短短几天已经揽下1.3k标星,登上GitHub趋势榜。他硕士毕业于浙江大学,目前的研究重点是视觉基础模型、深度生成模型和大语言模型。
北大字节提出图像生成新范式VAR 超越Sora核心组件DiT
北大与字节跳动AILab联合提出了一种图像生成新范式——VAR,这一新方法的核心在于预测下一级分辨率非传统的预测下一个token。VAR的提出不仅在图像生成质量上超越了Sora的核心组件DiffusionTransformer在推理速度上也实现了20倍以上的提升。VAR的开源也体现了学术界与工业界合作的积极成果,有助于推动整个AI领域的发展和创新。
Adobe图像生成AI “Firefly” 训练集中约有5%为AI图像
Adobe的图像生成AI“Firefly”以其训练集来源自AdobeStock中的图片和视频闻名。美国经济报纸彭博社报道称,Firefly的数据集实际上包含由Midjourney等公司生成的图像。”然,Tushnett教授指出,Firefly学习自Midjourney生成的图像的事实与其声称与其他图像生成AI不同的说法相矛盾。
Meta 推出 ViewDiff 模型:文本生成多视角 3D 图像
Meta与德国慕尼黑工业大学研发出创新模型ViewDiff,旨在帮助用户通过文本、图像或二者结合使用,快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义,也将为未来的3D图像生成领域带来更多创新可能。
IPAdapter FaceID Plus下载地址 AI图像生成编辑工具使用入口
ComfyUI-IPAdapter-Plus是一个强大的图像生成和编辑工具,专门用于基于一个或多个参考图像进行图像到图像的条件生成。通过文本提示、控制网络和掩码,您可以轻松生成增强图像的各种变体。获取更多详细信息并开始体验图像生成的乐趣,请访问ComfyUI-IPAdapter-Plus官方网站。