PixelPlayer:能自动从视频中识别和分离不同的声音源
PixelPlayer是MIT研究团队开发的项目,能够自动从视频中识别和分离出不同的声音源,并与画面位置匹配。这种能力使得系统能够识别视频中的不同声音来源,如不同乐器的声音,分别提取和分离这些声音源的声音无需人工标注数据。MIT研究团队通过PixelPlayer项目不仅推动了音视频处理技术的边界为多模态人工智能研究和应用提供了新的视角和工具。
PixelPlayer官网体验入口 AI音频视觉分离工具免费在线使用地址
PixelPlayer是一项革命性的工具,可以通过观看大量无标注视频学会定位产生声音的图像区域并分离输入声音成一组表示每个像素声音的组件的系统。该系统利用视觉和听觉双模态的自然同步特点,在无需额外人工标注的情况下学习联合解析声音和图像模型。欲了解更多关于PixelPlayer的信息,请访问官方网站。
阿里开源千亿参数模型 Qwen1.5-110B,性能超越 Meta-Llama3-70B
阿里巴巴宣布开源其最新的Qwen1.5系列语言模型-Qwen1.5-110B。这是Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。它在与最近发布的SOTA模型Llama-3-70B的性能上表现出色,并且明显优于72B模型。
性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元
JetMoE-8B是一款采用稀疏激活架构的人工智能模型,其性能卓越且训练成本不到10万美元,令人惊讶的是,它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。JetMoE-8B由24个块组成,每个块包含两个MoE层:注意力头混合和MLP专家混合。这不仅证明了其在性能上的优势,也展示了其在成本效益上的显著优势。
Meta公布Llama 3训练集群细节!储备60万块H100迎接AGI
【新智元导读】LLM开源从Infra做起!Meta公布了自己训练Llama3的H100集群细节,看来Llama3快来了。每年3月份,照例各家大厂又要开始秀自己最新的产品和研究了。Meta的目标是创建灵活可靠的系统,以支持快速发展的新模式和研究。
Llama-3公布基础训练设施,使用49,000个H100
3月13日,社交、科技巨头Meta在官网公布了两个全新的24KH100GPU集群,专门用于训练大模型Llama-3。Llama-3使用了RoCEv2网络,基于Tectonic/Hammerspace的NFS/FUSE网络存储,继续使用了PyTorch机器学习库。将Meta的Tectonic分布式存储解决方案和Hammerspace结合在一起,可以在不影响规模的情况下实现快速功能迭代。
三星推出Galaxy F15手机:搭载天玑6100 1130元起
三星在印度推出了一款新手机,名为GalaxyF15。该机于3月11日在印度发售,提供黑色、紫色和绿色三种配色。与GalaxyA155G相比,F15仅在电池容量上有一个区别,增加了1000mAh。
全球最强大模型易主GPT-4被超越:Claude 3可接受超过100万Tokens输入
近Anthropic刚刚发布了震撼消息:全新Claude3家族登场!最强版本Claude3Opus在推理、数学、编码、多语言理解和视觉等领域已经超越了包括GPT-4在内的所有大模型,展现出接近人类理解能力。前往AIbase官网,开始您的智能匹配之旅。
今日AI:英伟达大模型Nemotron-4登场;ai贴纸Face to sticker火了;KOALA AI 模型问世;Hugging Face发现100个恶意模型
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
又一AI独角兽!文生音频ElevenLabs融资5亿美元,估值超10亿美元
成立仅两年的AI音频公司ElevenLabs近日宣布B轮成功融资8000万美元,估值超过10亿美元,成功晋升为独角兽公司。这轮融资由AndreessenHorowitz、NatFriedman、DanielGross联合领投,红杉资本、SmashCapital、SVAngel、BroadLightCapital和CredoVentures跟投。随着用户群的不断增长,公司正在寻求产品创新,未来计划进一步扩展Dubbing功能,将简单的视频翻译扩展成一个完整的视频工作室,提供更多的内容制作控制权。
AI语音公司ElevenLabs B轮融资8000万美元,估值超10亿美元
AI语音合成初创公司ElevenLabs宣布已完成8000万美元的B轮融资,由AndreessenHorowitz、NatFriedman等领投。本轮融资还有SequoiaCapital、SmashCapital、SVAngel、BroadLightCapital和CredoVentures等参与。ElevenLabs此次融资将有助于其在AI语音合成领域的领导地位,并在不断增长的合成语音市场中继续保持竞争力。
扎克伯格宣战AGI:Llama 3训练中,今年要囤35万块H100,砸近百亿美元
为了通用人工智能的宏大目标,扎克伯格正在给Meta的AI研究部门进行大幅度的改组。Meta首席执行官马克・扎克伯格宣布,他的公司正在致力于为人工智能助手构建「通用智能」并「负责任地开源」,Meta正在将其两个主要研究小组合并在一起以实现这一目标。扎克伯格表示,Meta今年将推出一个新平台,让任何人都可以创建自己的人工智能角色,并将其分发到Meta的社交应用程序中,比如Facebook、Instagram和Threads。
AI视野:腾讯云AI绘画上线SaaS版本;ChatGPT将推新功能Sunshine;SOLAR10.7B大模型屠榜;LG发布全新AI笔记本;麻省理工开源Stream Diffusion
腾讯云AI绘画推出SaaS版本,成为国内首批通过中国信通院评估的AIGC绘画平台,提供API和在线工具,支持智能图生成、文生成图等多种能力。AI生成视频工具AssistiveVideo输入描述即可生成视频AssistiveVideo是一款人工智能生成视频工具,用户通过输入描述或上传图片即可轻松生成高质量4秒视频,为各领域带来便捷的视频制作体验。该模型在T3Bench数据集上的测试表现出色,展现了在�
SOLAR10.7B大模型屠榜HuggingFace 创新性拼接两个羊驼,高效集成
深度学习领域的新技术近日在HuggingFace的大模型排行榜中崭露头角,由UpstageAI提出的深度扩展方法在SOLAR10.7B大模型上取得了令人瞩目的成绩。该技术通过创新性地拼接两个7B羊驼,并采用DUS方法删除中间层次,使得新模型不仅超越了传统扩展方法如MoE能与基础大模型相同的基础设施高效集成。这一实际应用的反馈证明了该技术在处理实际数据时的优越性。
三星Galaxy S24 Ultra保持10倍变焦 或增加5倍变焦
三星可能会保留GalaxyS24Ultra的10倍变焦相机。这款手机将配备200MP广角摄像头以及12MP超广角摄像头,同时保留了5000万像素5倍变焦和1000万像素10倍变焦摄像头。三星正在准备在2024年出货约3520万台Galaxys24系列智能手机,其中Galaxys24Ultra约为1590万台,Galaxys24约为1350万台Galaxys24Plus约为580万台。
一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用
各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力。月之暗面的工程师还搞了更多轮实验,其中一个居然是……坏了,我成测试数据了。
通过这些代码,PyTorch团队让Llama 7B提速10倍
PyTorch团队在其博客中分享了一篇关于如何加速大型生成式AI模型推理的文章。该团队以Llama7B为例,展示了如何通过一系列优化技术将推理速度提升10倍,达到了244.7tok/s。PyTorch团队通过一系列创新性的优化手段,不仅成功提升了大模型的推理速度以不到1000行的纯原生PyTorch代码展示了这一技术的实现过程。
谷歌推AI音乐实验项目Instrument Playground 能模拟100多种乐器
谷歌最新实验性AI项目“InstrumentPlayground”已面世,允许人们通过一个文本提示生成20秒的音乐曲目。与Meta的MusicGen等类似项目相比,谷歌的版本声称能够模拟来自世界各地的100多种乐器,包括常见的钢琴和中国的笛子等。期待在未来看到更多的发展。
最新Claude 200K严重「虚标」?大神壕掷1016美元实测,90K后性能急剧下降
月初刚测了GPT-4Turbo上下文真实实力的大神GregKamradt又盯上了Anthropic刚更新的Claude2.1。他自己花了1016刀测完之后显示,Claude2.1在上下文长度达到90K后,性能就会出现明显下降。针对15种不同的文档深度和15种不同的上下文长度,重复上述步骤。
特斯拉Model S Plaid碳陶瓷刹车套件上架 售价10.9494万元
ModelSPlaid的碳陶瓷刹车套件现已正式上架销售,售价为10.9494万元。这款新的刹车套件被视为提升ModelSPlaid性能的重要配件。值得注意的是,该套件仅适用于2022年及之后生产的ModelSPlaid,并且仅可以与21英寸蛛网轮毂搭配使用。