YouTube出招:创作者必须标记用AI生成的内容,否则将面临惩罚
YouTube最近宣布了一项新规,要求创作者标明其视频是否包含由人工智能生成的内容,旨在应对虚假视频、深度伪造以及侵犯艺术家版权的音轨。这一决定是为了遏制伪造内容的传播,确保观众对视频真实性有清晰的认知。这项新规的支持功能将在未来数月和2024年逐步推出,以确保YouTube在日益增多的AI生成媒体中保持内容的透明度。
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型的显著进步。生成式预训练Transformer或GPT的发布引领了业界和学术界的多项突破。更多技术细节和实验结果参阅原论文。
革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记
卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具,它成功地将图像和视频输入转化为大型语言模型可识别的标记。项目地址:https://magvit.cs.cmu.edu/MAGVIT-v2的独特算法让开发者可以实现令人惊叹的应用。MAGVIT-v2的发布,预示着视觉生成领域的一次重大突破。
Adobe 联合 C2PA、微软等推出标记人工智能生成内容的「cr」特殊符号
随着网络上不断涌现的质量不佳和拙劣的AI内容,标记这些内容的质量已经成为一项重要关注的问题。为了帮助实现这一目标,Adobe和其他公司推出了一种新的符号,用于标记由人工智能生成的图像,告诉受众一切并非如其所见。如果运气好的话,这个AI符号可能会像知识共享标签在2000年代初期迅速传播到未来的互联网版本中一样。
X 用户称无法屏蔽或举报未标记诱饵广告
社交媒体平台X上出现了一种新的广告格式,这些广告以文章的形式出现在用户的提要流中,看似是普通帖子但实际上是广告。这些广告没有明确的广告标识,也没有关联任何账户,用户无法对其进行屏蔽或举报。该公司尚未就此事作出回应。
Hume AI EVI对话人工智能体验入口 情感大语言模型eLLM使用地址
Hume.AI专注于开发能够理解人类情感和表情的技术,提供表情测量API和自定义模型API,以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI,采用了情感大语言模型技术。如果您是研究人员、开发者或企业,不妨尝试Hume.AI提供的技术,探索其在情感计算领域的应用和潜力。
AI漫画自动生成器Al Comic Factory 支持批量生成不同语言的漫画
AlComicFactory是一个独特的项目,它运用先进的技术自动生成具有情感和故事性的漫画内容。这个项目的核心是大型语言模型和SDXL技术,它们共同工作,根据用户提供的简单文本提示,自动创建出包含人物对话和场景描述的漫画。无论你是漫画创作者是只是想为你的创意添加视觉元素,AlComicFactory都能为你提供帮助。
Jamba官网体验入口 最新高性能开源AI语言模型下载使用地址
Jamba是一款基于SSM-Transformer混合架构的开放语言模型,提供顶级的质量和性能表现。它融合了Transformer和SSM架构的优势,在推理基准测试中表现出色,同时在长上下文场景下提供3倍的吞吐量提升。作为基础模型,Jamba旨在供开发者微调、训练并构建定制化解决方案。
Miraa官网体验入口 AI双语字幕及日语英文语言辅助学习APP免费下载地址
Miraa是一款AI双语字幕及辅助学习APP。它能自动将视频/音频等媒体资料转录成字幕,并提供交互式AI解释和即时翻译功能,帮助用户高效学习。要了解更多关于Miraa并开始您的学习之旅,请访问Miraa官方网站。
DBRX官网体验入口 AI大型语言开源模型软件工具app免费下载地址
DBRX是一个由Databricks的Mosaic研究团队构建的通用大型语言模型,在标准基准测试中表现优于所有现有开源模型。它采用Mixture-of-Experts架构,使用362亿个参数,拥有出色的语言理解、编程、数学和逻辑推理能力。为了体验「DBRX」的强大功能,请访问AIbase网站查看更多介绍。
谷歌新研究成果:让大语言模型理解「图的语言」,性能提升60%
谷歌在ICLR2024上推出了一项重大成果:他们成功让大型语言模型学会理解「图的语言」,性能提升了高达60%。这项研究解决了LLMs在处理图形问题上的瓶颈,开启了图形数据与文本表示之间的新篇章。通过合理地将图形数据转换为文本表示,并结合适当的编码方式和任务类型,谷歌团队成功提升了LLMs在图形任务上的性能,为未来更深入的研究和应用打下了基础。
MathVerse:全方位可视化数学基准,对多模态大型语言模型进行公平和深入的评估
多模态大型语言模型在视觉情境下的表现异常出色,引起了广泛关注。它们解决视觉数学问题的能力仍需全面评估和理解。这表明需要更先进的数学专用视觉编码器,突显了MLLM发展的潜在未来方向。
基于 Gemini 谷歌携手 Fitbit 开发“个人健康大语言模型”
该公司旗下的GoogleResearch将与Fitbit团队合作,共同开发一款"个人健康大语言模型"。该模型将基于Gemini模型,并利用一系列健康数据进行微调,以增强对人类生理及行为数据的分析能力。通过这次与Fitbit的合作,谷歌希望能够进一步增强其在可穿戴设备及个人健康监测领域的实力。
HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址
HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力,能够理解包括文本、图像、视频等多种输入模态。点击前往HPT官网体验入口需求人群:"适用于需要处理和理解多模态数据的研究人员和开发者,如进行视觉-语言任务、图像分析、图表解读等。
阿里通义听悟升级推出六大 AI 助手:多语言音视频问答和思维管理
阿里巴巴集团旗下通义科技发布了产品“通义听悟”的最新升级版本,新增了6项重要功能。其中最重要的更新是推出了音视频问答助手“小悟”,它可以进行单条音视频内的自由问答,也支持跨多个音视频记录进行问题回答。今日的升级再次提升了其在音视频内容管理和多语言问答助手等方面的能力,为用户提供更智能化的服务。
谷歌AI推出新型评分器Cappy 助力多任务语言模型性能提升
在最新的研究论文中,谷歌研究人员引入了一种名为Cappy的预训练评分器模型,旨在增强和超越大型多任务语言模型的性能。这项研究旨在解决大型语言模型所面临的挑战,其中包括高昂的计算资源成本和效率低下的训练和推理过程。通过引入轻量级预训练评分器Cappy,这项研究解决了在多任务场景中有效利用大型语言模型的挑战,展示了其在各种任务上的参数效率和性能的优越性,同时强调了在实际应用中简化大型语言模型采用的潜力。
视频自动AI配音工具Pipio 可将视频翻译成多种语言并自动配音
在数字化时代,视频内容已成为信息传播的主要方式之一。语言差异常常成为信息传递的障碍。通过不断创新和优化,Pipio将继续在视频配音领域发展壮大,为用户带来更好的体验。
英伟达发布最强AI加速卡 大语言模型性能比H100提升30倍
英伟达在GTC开发者大会上发布了最强AI加速卡BlackwellGB200,计划今年晚些时候发货。GB200采用新一代AI图形处理器架构Blackwell,其AI性能可达20petaflops,比之前的H100提升了5倍。英伟达的系统还可扩展至数万GB200超级芯片,具有11.5exaflops的FP4计算能力。
LLM Pricing官网体验入口 大型语言模型定价比较工具在线使用地址
LLMPricing是一个聚合并比较各种大型语言模型定价信息的网站,这些模型由官方AI提供商和云服务供应商提供。用户可以在这里找到最适合其项目的语言模型定价。点击前往LLMPricing官网体验入口需求人群:适用于需要选择合适的大型语言模型进行项目开发的企业和开发者,帮助他们根据成本效益做出决策。
Apollo官网体验入口 医学领域多语言AI模型应用软件下载地址
Apollo项目由FreedomIntelligence组织维护,旨在通过提供多语言医学领域的大型语言模型来民主化医疗AI,覆盖6亿人。该项目包括模型、数据集、基准测试和相关代码。欢迎访问Apollo官方网站获取更多信息。