ContorlNet作者的研究!LayerDiffusion可生成商业素材级别透明PNG图片
用于生成图像的大规模模型已经成为计算机视觉的基础图形,令人惊讶的是,很少有研究关注分层内容生成或透明图像生成。这种情况与巨大的市场需求形成鲜明对比。用户还表示,生成的透明图像在质量上可媲美真实的商业级透明素材,例如AdobeStock提供的素材,展现出技术的强大和实用性。
AI视野:Stability.ai开源SDXL Turbo;Pika Labs1.0版发布;字节跳动ChitChop在海外上线;Keras3.0正式发布;法院判决AI生成图片具备版权
文生成图AI平台Stability.ai发布开源SDXLTurbo,图像生成实时响应,仅需1秒。SDXLTurbo基于全新对抗扩散蒸馏技术,将生成步骤减至1-4步,保持高质量。测试结果显示对相对清晰的视频效果显著,为提升视频素材清晰度带来新可能。
AI文生图模型PixArt-sigma,可以生成4K分辨率图片
PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目,是一个强大的文本到图像生成模型,通过弥散Transformer进行弱到强训练,旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练,从能够更好地生成高质量的4K分辨率图像。在应用方面,PixArt-Σ是一款强大的文本到图像生成工具,具有广泛的应用场景,可以满足艺术、设计、游戏开发、营销
多模态语言模型Reka Core:可分析图片、视频、音频 评测得分与GPT-4接近
RekaAI近日宣布推出其最新力作——RekaCore,这是一款前沿的多模态语言模型,拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频,评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持,Reka已经准备好迎接更广泛的挑战,展望未来,我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。
OpenAI发布GPT-4-Turbo 正式版 可识别图片
OpenAI发布了GPT-4-Turbo正式版,这是一个带有视觉能力的模型,能够处理128k的上下文。这个模型现在已经全面开放,可以通过“gpt-4-turbo”来使用,最新版本为“gpt-4-turbo-2024-04-09”。GPT-4-Turbo是一个功能强大的模型,它的发布将为AI领域带来新的可能。
AI视野:通义千问发布Qwen1.5;背景分割开源模型RMBG v1.4来了;OpenAI 为 DALL-E3添加新水印;苹果图片项目MGIE上线试玩
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
训练效率提升40倍!开源图片生3D模型,Stable Zero123来啦
12月14日,著名生成式AI开源平台Stability.ai在官网开源了,图片生成高质量3D模型——StableZero123。StableZero123是基于今年3月,丰田研究院和哥伦比亚大学联合开源的Zero123模型开发成。StableZero123模型主要用于研究,未来会开放商用。