Align Your Steps:低步数推理保持高质量结果 适用于SD 1.5和SDXL
在深度学习领域,扩散模型作为生成建模的前沿方法已经得到广泛应用。DMs的一个关键缺点是其较慢的采样速度,这主要是由于需要通过大型神经网络进行多次顺序函数评估。在视频生成方面进行了研究,发现使用优化计划可以在视频生成过程中产生更加稳定的视频,减少随时间推移的颜色失真。
StableDesign:适用于室内装修设计的SD方案 文字提示就可修改室内设计图
有开发者开发了StableDesign项目,旨在为生成式室内设计提供数据集和训练方法。这是一个适用于室内装修设计的SD方案,上传一张空房间的图片,输入文字提示,可以按要求生成装修效果图。StableDesign生成的效果可不能全信,比如有时会把承重墙改没了。
OpenAI 推出适用于 Apple Vision Pro 的 ChatGPT 应用
OpenAI是地球上一些最先进的人工智能模型背后的研究组织,它为AppleVisionPro发布了一款新的ChatGPT应用程序。ChatGPTforVisionPro是OpenAI的GPT-4Turbo模型的最新版本,用户可以通过该应用提出问题、获取答案、寻求建议,甚至在应用中直接生成图像和文本。人们可能更多地通过语音和图像与AI进行互动,呈现更加自然和智能的用户体验。
Vary-toy:具有高级视觉词汇视觉语音模型 适用于标准GPU
在过去的一年里,大型视觉语言模型已经成为人工智能研究的一个突出焦点。当以不同方式启动时,这些模型在各种下游任务中表现出色。研究人员计划公开发布代码,供研究社区进一步探索和采用。
Finalframe即将推出适用于AI生成视频的剪辑界面
视频生成产品Finalframe即将推出适用于AI生成视频的剪辑界面。这种剪辑方式非常直观并且方便,每个视频生成产品都应该配一个类似的工具。FinalFrame还允许用户对已有的视频剪辑进行扩展,为创作者提供更多创作空间。
继苹果DMA变更后,Opera 将在欧洲推出适用于 iOS 的全新 AI 浏览器
挪威浏览器开发商Opera今天宣布,他们计划在欧洲推出一款全新的人工智能浏览器,该浏览器将基于Opera自家的iOS引擎构建。这一宣布是在苹果公司表示将允许替代浏览器引擎在iOS上运行之后的消息,这一变化是应欧洲数字市场法案的要求。Opera表示,新浏览器的一些元素将使其为"基于生成人工智能的未来"做好准备。
AI音乐生成器Beatoven.ai:适用于生成视频、播客和游戏背景音乐
Beatoven.ai是一款利用先进的人工智能技术,帮助创作者轻松生成免费背景音乐的创作工具。无论是制作广告、YouTube视频、播客还是游戏,Beatoven.ai都能为内容创作者提供独特高品质的音乐。平台提供了一个无代码平台,易于设置和使用,适合所有技能水平的开发者。
一张图500元是目前AIGC最高“回报”?小冰李笛:调用API的商业模式不适用于未来 | MEET 2024
AIGC在商业界中,最大的一笔回报是多少?答案可能是:一张图片,500元。且这就是发生在最近、号称人工智能著作权第一案的真实案例:这个案子出来之后,引发了很多人都会讨论,认为它会不会对法学界、对人工智能的著作权、版权等问题的实践具有一些新的指导意义。因为这个时代似乎属于我们,就像当年的遗传学的时代属于孟德尔一样,谢谢大家。
爆款短视频利器!Klap可一键生成适用于多平台的短视频
Klap是一款基于人工智能技术的创新工具,专为内容创作者和社交媒体推广设计。这个强大的工具可以将现有的YouTube视频转换为适用于多个社交媒体平台,包括TikTok、Shorts和Reels的短视频,仅需点击一次即可完成整个过程。通过扩大影响力和受众,Klap助力内容创作者在竞争激烈的社交媒体环境中脱颖出。
大麦开通候补功能 官方回应:适用于部分演出
大麦网官方公告表示,将于今日上线一项新的功能,名为演唱会回流门票候补。此项功能允许用户在演出售罄并且满足平台候补条件时,选择预付全款来候补门票。同一大麦账号可以提交的候补订单数,以及每个订单可候补门票的数量限制,与该演出项目的售票规则保持一致。
Cohere 推出适用于企业LLM应用的Embed V3
Cohere的最新嵌入模型EmbedV3旨在帮助企业构建大型语言模型应用程序,具有出色的数据压缩功能。该模型与OpenAI的Ada竞争,承诺卓越性能。EmbedV3的高性能和多功能性使其成为企业构建LLM应用程序的有力工具。
OneChart:仅2亿参数,专门用于图表信息结构化提取
在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉-语言模型也难以令人满意地处理此类任务。研究团队提出的OneChart在图表结构提取方面取得了令人瞩目的成绩,为解决图表解析中的挑战提供了新的思路和方法。
MoA:用于图片合成的混合注意力架构 可实现风格参考和人物融合
在最新的研究中,提出了一种名为注意力混合模式的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。受大型语言模型中使用的专家混合机制的启发,MoA通过将生成工作负载分配给两个注意力路径来实现给定主题和背景的分离生成。这些应用展示了MoA在个性化图像生成领域的潜在价值和广泛适用性。
63岁健身阿姨称走红后视频被盗用:用于带货 甚至编造故事
云南一位63岁的阿姨真真,近期因她苗条的身材和年轻的容貌在网络上引起了广泛关注。这一切都源于她坚持不懈的健身习惯,已经持续了整整八年。我们也应该尊重每个人的努力和付出,不要随意盗用他人的成果,更不应该编造虚假故事来误导他人。
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型
MetaAI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果,证明了其在多模态视频理解应用中的有效性和多功能性。
SDXL模型精选微调模型合集SDXL fine-tunes 覆盖各种风格 可直接用于开发
Replicate上的“SDXLfine-tunes”收藏包含了一系列基于SDXL模型的精选微调模型,这些模型专为生成特定视觉风格和主题的高质量图像设计。这些微调模型利用了大型生成模型SDXL的强大功能,通过针对特定内容进行优化和调整,为用户提供了丰富的视觉创作工具。还有galleri5/icons模型,这是一个SDXL微调模型,专门用于生成光滑的图标和扁平的波普构成主义图形,带有粗边缘,基于Bing
美国新法案要AI公司透露用于训练AI模型受版权保护的作品
美国国会于周二提出了一项法案,旨在强制人工智能公司透露他们用于训练生成AI模型的受版权保护的材料。这项立法进一步加入了立法者、新闻机构和艺术家为了确定AI公司如何使用诸如歌曲、视觉艺术、书籍和电影等创作作品来训练他们的软件,并且这些公司是否违法侵犯版权的种种努力。一组200多位知名音乐艺术家发布了一封公开信,呼吁加强对人工智能的保护,并要求公司不开发可能削弱或取代音乐家和词曲作者的工具。
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面
苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型,旨在提升对移动应用用户界面的理解。这款模型经过特别优化,能够处理移动UI屏幕上的各种任务,并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的,显示出在理解和生成自然语言指令方面的高级能力。
谷歌AI研究人员提出噪声感知训练方法(NAT)用于布局感知语言模型
在文档处理中,特别是在视觉丰富的文档中,高效信息提取的需求变得越来越关键。VRDs,如发票、水电费单和保险报价,在业务工作流中随处可见,通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路,标志着该领域迈出了重要的一步。
苹果斥资5000万美元授权数百万张Shutterstock图片用于训练AI模型
苹果近日宣布与Shutterstock达成协议,授权使用数百万张图片来训练其人工智能模型。除了苹果之外,谷歌、Meta和亚马逊等科技公司也曾与Shutterstock达成类似协议,用于发展视觉AI引擎。其打算开发能够尽可能使用设备上技术的LLMs。