上海AI实验室、Meta联合开发开源模型 可为人体生成3D空间音频
近期上海AI实验室与Meta合作推出的开源模型标志着在3D空间音频领域迈出的一大步。该模型通过处理头戴式麦克风的输入音频信号和分析人体姿态关键点,成功地实现了为人体生成3D空间音频的目标。未来仍需进一步优化和拓展,以满足更广泛的应用场景和设备要求。
谷歌推具备空间推理能力的视觉语言模型SpatialVLM
谷歌最新研究提出SpatialVLM,旨在解决视觉语言模型缺乏空间推理能力的问题。视觉语言模型在理解目标在三维空间中位置或关系时存在困难,研究者通过借鉴人类空间推理能力的思路,提出了这一新方法。这一研究成果有望推动视觉语言模型在未来的发展方向上取得更大突破,为人工智能领域带来新的进步。
谷歌提出最新模型SpatialVLM :赋予视觉语言模型空间推理能力
谷歌最新论文揭示的SpatialVLM,是一种具备空间推理能力的视觉语言模型,旨在解决当前视觉语言模型在空间推理方面的困难。视觉语言模型在图像描述、视觉问答等任务上取得显著进展,但在理解目标在三维空间中的位置或空间关系方面仍存在难题。这一研究为视觉语言模型的空间推理能力提供了新的思路,为未来在机器人、图像识别等领域的发展带来了新的可能性。
谷歌AI研究提出 SpatialVLM:一种数据合成和预训练机制,以增强视觉语言模型 VLM 空间推理能力
谷歌AI研究团队最近提出了SpatialVLM,这是一种旨在增强视觉语言模型空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展,但它们在空间推理方面仍存在显著局限。-SpatialVLM的开发标志着人工智能技术的重大进步。
SpaceX计划向国际空间站发射货运飞船:首次搭载机器人外科医生
据报道,SpaceX计划在北京时间1月30日01:29使用猎鹰9号发射天鹅号货运飞船,执行NG-20商业补给任务。NG-20任务是诺斯罗普格鲁曼公司为美国航空航天局执行的国际空间站第20次货运补给任务。天鹅号将在国际空间站停留大约六个月,旅途结束时它将携带垃圾和其他废物离开并在地球大气层中进行处理。
全球最大音频流媒体公司Spotify裁员17%:遣散费约2.7亿元
全球最大音频流媒体公司Spotify周一宣布,将裁减大约17%的全球员工。这一数字约占Spotify全球9000名员工中的1500人,公司称这是经济增长大幅放缓”的结果。截止到今年9月30日,Spotify的全球付费订阅用户增长至2.26亿用户,也是全球首个付费用户突破2亿大关的音乐流媒体平台。
Leonardo Ai推新功能Transparency 一键生成高质量透明PNG图像
LeonardoAi发布了一项创新的功能——Transparency。这项功能能够生成真正的本地透明PNG图像。我们期待这一功能在未来能够带来更多的可能性,满足更多用户的需求。
初创公司Particle.news推出“多视角”新闻阅读体验 解决AI对新闻生态系统的影响
由前Twitter工程师领导的团队正在重新思考如何使用人工智能来帮助人们处理新闻和信息。上周末进入内测的Particle.news是一家新的初创公司,提供个性化、“多视角”的新闻阅读体验,,通过利用人工智能来总结新闻,并以公平的方式呈现新闻内容。该公司认为,人工智能可以帮助人们更有效地发现和理解重要信息。
AI需求带来爆炸式增长!数据公司Palantir四季度收入增长20%创新高
数据公司Palantir在周一财报后盘后交易中股价大涨超过19%,创下了分析师对收入的预期。截至2023年第四季度,公司的收入同比增长20%,达到6.08亿美元,超过了LSEG预期的6.02亿美元。值得注意的是,Palantir此前报告了连续第四个季度的盈利,这使得公司有资格加入标普500指数。
视频版ContorlNet来了!SparseCtrl增强AI生成视频可控性
在文本到视频领域的最新研究中,SparseCtrl技术通过引入时间稀疏信号实现了对视频结构的灵活控制。传统的文本提示在空间不确定性方面存在问题,容易导致模糊的帧组合。我们可以期待看到SparseCtrl在各种领域的广泛应用,为视频生成领域带来更多的创新和可能性。
SpaceX发布新一代Starlink终端 结构优化视野提升网络增强
科技公司SpaceX最近悄然为其星链卫星互联网服务推出了一款新的标准终端。与早期型号相比,新终端在外形和功能上都有显著优化。随着产能提升,这款终端有望在未来几个月内面向更多用户开放和推广。
GitHub发布编程字体家族Monaspace 支持混合使用5款等宽字体
代码托管平台GitHub发布了一套名为Monaspace的开源编程字体家族。这套字体家族包含5种字体,分别是Neon、Argon、Krypton、Xenon和Radon。希望通过这款字体家族为编程工作带来更多乐趣。
GitHub发布Copilot Workspace 开发者第二大脑来袭
CopilotWorkspace是GitHub新发布的开发工具,旨在帮助开发者完成更大、更复杂的任务。该工具侧重于任务选择、意图表达和与AI合作寻求解决方案,同时GitHub结合AI智能体技术和GitHubCodespaces实现无头、短暂、安全的计算方式。CopilotWorkspace成为了开发者的「第二个大脑」,为他们提供了强大的工具和功能,极大地提高了开发效率和完成任务的质量。
小米:已捐献“UltraSpace 存储扩容” 相信友商会跟进
小米14正式发布,除了常规硬件升级外,雷军还宣布了一项重磅功能,即澎湃OS配合存储实现的存储扩容。小米将原本256GB的存储容量提升到了264GB原本512GB的存储容量更是提升到了528GB。小米已经将这个技术标准贡献给了UFS协会组织,这意味着不久的将来,各大手机厂商应该都会适配这个功能。