苹果斥资5000万美元授权数百万张Shutterstock图片用于训练AI模型
苹果近日宣布与Shutterstock达成协议,授权使用数百万张图片来训练其人工智能模型。除了苹果之外,谷歌、Meta和亚马逊等科技公司也曾与Shutterstock达成类似协议,用于发展视觉AI引擎。其打算开发能够尽可能使用设备上技术的LLMs。
英伟达和Shutterstock合作推出文本转3D服务
Nvidia和Shutterstock最近联手推出了一项名为文本转3D的全新服务GettyImages也推出了一项旨在给创意专业人士更多控制权的AI图像生成服务。Shutterstock的3D生成服务是基于Nvidia最新版本的Edify,这是一种用于视觉生成AI的多模态架构。Shutterstock和GettyImages的这些举措将进一步推动AI在创意领域的应用,为创意专业人士提供了更多创作和编辑的可能性。
Grok-1官网体验入口 马斯克推特X Twitter开源模型免费下载地址
Grok-1是一个全球热门的大型语言模型,专家混合模型,包括了314亿参数的训练。该模型未经针对特定应用的微调,是Grok-1预训练阶段的原始基础模型检查点。了解更多关于Grok-1的信息,访问官网。
BetterYeah AI体验入口 企业级AI应用开发平台免费使用地址
BetterYeahAIAgent是一个高级的企业级AI应用开发平台,专注于构建业务专家级的AI工作助理。这个平台内置了多种成熟的模板,功能强大且开箱即用,支持快速应用落地。想要了解更多或开始使用BetterYeahAI,请访问BetterYeahAI网站查看更多介绍。
原钉钉副总裁成立Al应用开发平台BetterYeah AI 已获亿元融资
斑头雁智能科技是一家人工智能公司,由原钉钉副总裁张毅创立。该公司最近完成了近千万美元的A轮融资,用于开发企业级AIAgent产品BetterYeahAI。该公司还拥有自研的超级自动化工具集和低代码平台,可以为Agent提供更多的功能,并降低开发成本。
OpenAI邀请前Twitter印度负责人担任高级顾问,探讨在印度的AI政策
在最新的发展中,OpenAI宣布与前Twitter印度负责人RishiJaitly合作,Jaitly将担任OpenAI的高级顾问,就AI政策与印度政府进行深入磋商。OpenAI正积极考虑在印度设立本地团队,以进一步深化在该地区的业务。这表明OpenAI对于在全球范围内推动人工智能研究和发展的雄心壮志。
南洋理工推80亿参数多模态大模型OtterHD
南洋理工华人团队提出的80亿参数多模态大模型OtterHD引起了人们的关注。与其他模型相比,OtterHD具有处理高分辨率图像的能力,并且具有通用性,能够应对各种推理需求。这些结果表明,OtterHD是一个非常有潜力的模型,在处理各种高分辨率图像和复杂场景中具有广泛应用的前景。
「有效上下文」提升20倍!DeepMind发布ReadAgent框架
【新智元导读】模仿人类阅读过程,先分段摘要再回忆,谷歌新框架ReadAgent在三个长文档阅读理解数据集上取得了更强的性能,有效上下文提升了3-20倍。基于Transformer的大语言模型具有很强的语言理解能力,但LLM一次能够读取的文本量仍然受到极大限制。还可以看到ReadAgentS大大优于ReadAgent-P,性能改进的代价是检索阶段的请求数量增加了六倍。
Meta推新框架OPT2I 提高SD图像生成一致性
Meta公司最近推出了一款名为OPT2I的新框架,该框架利用大型语言模型来提高SD图像从提示词到图像的生成过程中的一致性。OPT2I是一个优化框架,旨在提升T2I模型中的提示-图像一致性。OPT2I框架为提高T2I模型的提示-图像一致性提供了一种新的有效方法。
TOXCL:用于检测和解释隐性有毒言论的统一AI框架
社交媒体上的毒性言论可能会像野火般蔓延,特别是针对个人和边缘化群体。明显的仇恨言论相对容易被发现,但隐含毒性——依赖于刻板印象和编码语言不是明显的侮辱——提出了更为棘手的挑战。但通过谨慎使用,它为赋予边缘化声音权力和遏制网络上的压制性言论提供了一条道路。
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
随着ChatGPT的出现,大语言模型在生成连贯文本和遵循指令方面获得了巨大技术突破。然后在推理和解决复杂内容方面,面临内容不准确、安全等难题。每次只需要一个查询获得相似性能的集成方法需要40倍的查询量,也就是说可以节省很多算力资源。
MIT研究员推新AI图片生成框架DMD:AI 单步生成高质量图像 速度快30倍
在当今人工智能时代,计算机可以通过扩散模型生成自己的“艺术”,逐步向嘈杂的初始状态添加结构,直到清晰的图像或视频出现。扩散模型突然变得异常受欢迎:输入几个词,即可体验现实与幻想交汇的梦幻景象。当前版本使用StableDiffusionv1.5作为教师模型,学生继承了一些限制,如渲染文本和小脸部的细节描绘,这表明更先进的教师模型可能进一步提升DMD生成的图像。
HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址
HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力,能够理解包括文本、图像、视频等多种输入模态。点击前往HPT官网体验入口需求人群:"适用于需要处理和理解多模态数据的研究人员和开发者,如进行视觉-语言任务、图像分析、图表解读等。
阿里巴巴推出高保真图像到视频生成框架AtomoVideo
阿里巴巴在人工智能领域再次取得突破,推出了一款名为AtomoVideo的高保真图像到视频生成框架。这一技术的问世,标志着基于文本到图像生成技术的视频生成领域取得了显著的快速发展。不过从AK大神发布的演示来看,AtomoVideo生成的视频质量和sora相比差距较大,和SVD相比也有一些差距,希望后续会有更大的提升吧。
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着Sora的爆火,人们看到了AI视频生成的巨大潜力,对这一领域的关注度也越来越高。除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。如下表所示,UniEdit的表现大幅超过基线方法。
Chat with MLX :Mac专属大模型框架 两行代码部署还支持中文
一款名为ChatwithMLX的大模型框架推出,专为Mac用户打造,让他们也能享受本地大模型的乐趣。这个框架仅需两行代码即可部署,支持与本地数据交互,并提供中文支持。对于Mac用户来说,这无疑是一次令人振奋的消息,也让他们更便捷地体验到大模型带来的便利和乐趣。
北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应
重磅:北大团队联合兔展发起了一项Sora复现计划——OpenSora。框架、实现细节已出:初始团队一共13人:带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。又有消息称:Dreamina即将上线类似sora的视频生成功能。
谷歌发布时间感知框架MUSCATEL:图像识别准确率提升15%
谷歌AI团队最近发布了一项名为MUSCATEL的全新时间感知框架,旨在对抗概念漂移问题,提升图像识别准确率。概念漂移一直是机器学习领域的难题,即数据分布随时间变化,影响模型持续有效性。谷歌发布的MUSCATEL方法为机器学习领域的概念漂移问题提供了一种创新的解决方案,为模型在大规模、动态数据集中持续准确地进行分类提供了新的思路和方法。
魔搭社区开源多智能体框架AgentScope
魔搭社区ModelScope宣布开源AgentScope,AgentScope是一款全新的多智能体框架,专为应用开发者打造,旨在提供高易用、高可靠的编程体验,提供多模态和分布式的技术支持:借助于AgentScope,可以在本地部署并魔改游戏应用,任意修改你的游戏界面,或者添加更多的feature1.Agent游戏制作:AgentScope提供了一个基于Agent技术的图文游戏制作体验。玩家可以通过配置来创建自己的游戏剧情、任
普渡大学发布Talk2Drive框架 为自动驾驶汽车提供智能指令解析能力
普渡大学最新发布了Talk2Drive框架,利用大型语言模型为自动驾驶汽车提供智能指令解析能力。这一框架的核心在于通过接收命令、处理与推理,生成可执行代码,结合云端实时环境数据来实现人车交互的全新方式。Talk2Drive框架的推出将为自动驾驶汽车提供更加安全、舒适和个性化的驾驶体验,预示着以人为本、智能化的未来交通时代的到来。