「有效上下文」提升20倍!DeepMind发布ReadAgent框架
【新智元导读】模仿人类阅读过程,先分段摘要再回忆,谷歌新框架ReadAgent在三个长文档阅读理解数据集上取得了更强的性能,有效上下文提升了3-20倍。基于Transformer的大语言模型具有很强的语言理解能力,但LLM一次能够读取的文本量仍然受到极大限制。还可以看到ReadAgentS大大优于ReadAgent-P,性能改进的代价是检索阶段的请求数量增加了六倍。
DeepMind发布自监督扩散模型SODA
GoogleDeepMind昨天发布的一项研究展示了一项引人注目的技术,尽管其中的技术细节可能需要深入理解,但总体来说,通过一系列操作,可以以无监督的方式精准控制扩散模型,从实现风格和内容的分离,以及合成物品的3D视图等功能。论文地址:https://soda-diffusion.github.io/这项研究介绍了一种名为SODA的自监督扩散模型,专门用于表示学习。这项研究为深度学习领域的发展提供了新的思路和可能性。
IPAdapter FaceID Plus下载地址 AI图像生成编辑工具使用入口
ComfyUI-IPAdapter-Plus是一个强大的图像生成和编辑工具,专门用于基于一个或多个参考图像进行图像到图像的条件生成。通过文本提示、控制网络和掩码,您可以轻松生成增强图像的各种变体。获取更多详细信息并开始体验图像生成的乐趣,请访问ComfyUI-IPAdapter-Plus官方网站。
今日AI:Sora超现实大片震惊好莱坞;IPadapter插件史诗级更新;苹果要推AI应用商店;DALL-E也推局部重绘功能
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
ComfyUI的IPadapter插件重大更新 运行速度提升但旧版工作流失效
ComfyUI的IPadapter插件在23号进行了一次破坏性更新,用户需谨慎升级。所有旧版工作流中的IPadapter节点将失效,需要用户重新创建。通过设置mask,可以让模型的注意力集中在感兴趣的区域,其他部分的影响会相应减弱。
Contorlnet插件支持IPadapter FaceID 模型了 更好地还原人像特征
SDWebUI的Contorlnet插件现在已经支持IPadapterFaceID模型的使用。这个模型是之前IPadapterFace的升级版本,可以更好地从照片提取人像特征并还原到生成的图片中。用户就可以通过Contorlnet插件来方便地使用IPadapterFaceID模型了。
IPaapter团队推IP-Adapter-FaceID模型 大幅提高人脸识别精准度
IPaapter团队最新推出了IP-Adapter-FaceID模型,这个模型的推出激起了旧模型在从图片人像中提取相似度方面取得了显着的提高。一张照片还原出的人脸可以更精准了。IPaapter团队的努力和创新精神为人脸识别技术的发展注入了新的活力,相信IP-Adapter-FaceID模型的推出将为相关领域带来积极的影响,帮助人们更好地利用人脸识别技术。
微软Paint新增Cocreator按钮,基于DALL-E文字转图片技术
微软正式在Windows11的Paint应用中推出了Cocreator图像生成AI功能。这一集成的文本转图生成器由OpenAI的DALL-E3模型驱动,之前仅限WindowsInsider用户使用。微软已将Copilot推广到无数产品,从Windows10到Microsoft365服务。
英伟达发布RAPIDS cuDF框架 pandas在GPU上运行速度快了150倍
Nvidia发布了一款名为RAPIDScuDF的新版本,据称可以将pandas运行在GPU上,并且性能提升了150倍。pandas是一款流行的基于Python的数据框架库,用于数据处理和分析。这对于处理大规模数据的任务非常有用,使得数据科学家可以更高效地进行数据处理和分析。
Nvidia表示,新框架使Pandas在GPU上的运行速度快了150倍
Nvidia最新发布的RAPIDScuDF框架的新版本引起了广大数据科学家和Pandas用户的兴趣,因为它声称可以使Pandas在GPU上运行时性能提升150倍。Pandas是一种受欢迎的基于Python的数据框架,用于数据处理和分析。这一新功能将有望使更多数据科学家受益,特别是那些需要处理大规模数据的用户。
英伟达推新AI语音识别模型Parakeet 号称优于Whisper
领先的开源对话AI工具包NVIDIANeMo宣布推出ParakeetASR模型系列,这是一系列最先进的自动语音识别模型,能够以出色的准确性转录英语口语。ParakeetASR模型与Suno.ai合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。要在本地访问模型并探索工具包,请访问NVIDIANeMo的Github页面。
DeepSparse:利用稀疏性加速神经网络推理
DeepSparse是一种突破性的CPU推理运行时,采用了复杂的稀疏性技术,从实现了神经网络推理的加速。稀疏性是指神经网络中存在许多连接权重为零的情况。多层次API:提供引擎、管道和服务器等多层次的API,以满足不同应用场景的需求。
华为史上最大平板!华为MatePad Pro 13.2 SIM卡版开售:7499元
今日从华为官方商城了解到,华为MatePadPro13.212GB512GB新增SIM卡版本,首发到手价7499元。相比首发价5699元的12GB512GB版,SIM卡版本贵了1800元。核心参数上,华为MatePadPro13.2搭载Mate60系列同款的麒麟9000s芯片,内置10100mAh电池,支持88W快充。
系统更纯净 华为鸿蒙OS 4新体验版招募:支持MatePad 2023等4款平板
据花粉俱乐部介绍,今日,华为HarmonyOS4新体验版开启第二批花粉Beta招募。此次尝鲜升级支持华为MatePad2023、华为MatePad11英寸2023、华为MatePadAir、华为MatePadPro12.6英寸2023四款机型。增加病毒和风险应用的防误报机制,智能识别病毒与风险应用等。
Voicepanel:利用AI进行语音或视频采访
Voicepanel是一个利用AI进行语音或视频采访的产品,帮助企业以较低成本获取客户反馈,远比传统的人工访谈更便宜。其使用户能够在短时间内进行大量对话,获取比传统调查更深入的洞察。它通过提供成本更低、速度更快且更具深度的反馈收集方式,为企业打造受欢迎的产品提供了有力支持。
追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!
就在Sora疯狂刷屏那天有两款重磅产品发布:一个是谷歌的Gemini1.5,首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。在功能方面V-JEPA与Sora有很多相似之处,例如,都具备让AI学会如何通过自我监督学习认识、模拟世界,以提升生成视频的质量、表示学习方法和扩大视频训练数据范围。但Meta表示,下一步,将会把V-JEPA与音频相结合使用,并且可以充
AI视野:OpenAI公布Sora技术报告;Meta首发AI视频模型V-JEPA;ComfyUI发布最新3D Pack;Nomic AI 发布首个完全开源的长文本嵌入模型
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
Meta首发AI视频模型V-JEPA 可用人类的理解方式看世界
深度学习领域泰斗LeCun在WGS峰会上怒斥Sora模型不能真正理解物理世界,引起广泛关注。仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界,与基于世界模型的因果预测有本质区别。V-JEPA的发布不仅是对Sora的回击,更展示了Meta公司在AI领域的先进技术,为实现具身AI技术和未来增强现实眼镜提供了有力支持。
LeCun怒斥Sora不能理解物理世界!Meta首发AI视频「世界模型」V-JEPA
【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。Sora一经面世,瞬间成为顶流,话题热度只增不减。它仍然是插值潜在空间的嵌入,到目前为止你还不能以这种方式构建「世界模型」。
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用ScoreDistillationSampling的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡国立大学、武汉大学等机构的研究人员提出了Repaint123,以减轻多视角偏差、纹理退化,并加速生成过程。图4:Repaint123两阶段单视角3D生成框架实验�