上海智能实验室推图文多模态大模型InternLM-XComposer2(浦语·灵笔2)
InternLM-XComposer2是一款先进的视觉-语言模型,在自由组合文本和图像以及理解这两者之间的内容方面表现卓越。这款模型不仅超越了传统的视觉-语言理解能够巧妙地将多样化的输入,如概要、详尽的文本描述和参考图片,融合成包含文本和图像的复合内容,实现高度定制化的创作。这使得InternLM-XComposer2成为当前领先的视觉-语言模型之一,为多领域的创作和理解任务提供了卓越
上海AI实验室等开源,音频、音乐统一开发工具包Amphion
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。开发团队表示,未来,会持续更新这个工具包,加入更多与语音相关的模型,打造成最好用的开源语音工具包之一。
阿里通义实验室开源多模态说话人项目3D-Speaker
3D-Speaker是通义实验室语音团队贡献的一个开源项目,结合了声学、语义、视觉三维模态信息来解决说话人任务。项目涵盖了说话人日志、说话人识别和语种识别任务,提供了工业级模型、训练代码和推理代码。3D-Speaker项目在说话人任务中探索了多模态信息的结合应用,提供了一系列有效的技术解决方案和开源资源,为语音研究领域的发展做出了贡献。
GRUP MEDIAPRO宣布与微软成立AI合成媒体实验室
GRUPMEDIAPRO在ISE展会的框架内,宣布与微软合作,启动了一个人工智能和合成媒体实验室。这是两家公司为了为音像行业开发解决方案共享技术和商业知识的一个重要步骤。“有许多使用场景,可以让行业成员的任务变得更容易,让他们有更多的时间发挥创造力。
传音TECNO与杜比实验室合作 推进智能手机杜比全景声应用
传音旗下手机品牌TECNO与杜比实验室达成合作,共同推进杜比全景声空间音频体验在智能手机上的应用。TECNOPOVA6系列智能手机将率先搭载杜比全景声,并计划于2024年巴塞罗那世界移动通信大会上正式发布。MWC2024将于2月26日至29日在西班牙巴塞罗那举行,届时我们会跟进TECNOPOVA6系列智能手机的官方规格信息。
上海AI实验室开源科学大模型浦科化学,理科能力全线提升,免费商用
最新科学大模型浦科化学,发布即开源!这是上海AI实验室最新开源成果,它基于书生·浦语2.0强大的基座模型能力,通过注入海量化学专业数据,使大模型获得理解和处理化学相关专业任务的知识与能力。值得一提的是,在获得化学能力同时,大模型的数理学科及推理能力还得到增强。基于浦科化学模型,人工智能可为化学研究提供智能化辅助,如化学合成路径规划、化学反应条件优化、实验结果自动化分析等,从提升化学研究的效率和质量。
OPPO与支付宝成立联合创新实验室,持续构筑可信赖的互融生态
2024年1月11日,OPPO与支付宝成立联合创新实验室,双方将围绕泛在服务、安全能力、AIGC联合产品化和基础体验优化等四个模块展开合作,为用户打造安全可靠的产品和服务。2024年1月11日,OPPO与支付宝成立联合创新实验室针对用户高频场景,OPPO联合支付宝将继续扩大ColorOS泛在服务体验,覆盖出行、生活、餐饮、娱乐、就医、政务在内的六大场景。OPPO与支付宝也将持续构筑可信赖的互融生态,共同为用户打造全新的智慧服务体验。
AI视野:GPT-4 API曝出重大漏洞;阿里巴巴推AI画图框架SCEdit;上海AI实验室浦医2.0发布
上海AI实验室升级发布“浦医2.0”上海人工智能实验室与上海交通大学医学院附属瑞金医院等在“2023健康中国思南峰会”上发布了医疗多模态基础模型群“浦医2.0”,为跨领域、跨疾病、跨模态的AI医疗应用提供全面支持。用户可定制图�
上海人工智能实验室最新项目PIA放出演示 可将写实照片转换成3D动漫效果
上海人工智能实验室最新的项目PIA已经放出演示,该项目通过文本控制图片中的内容来生成视频。它可以将写实的照片转换成偏3D动漫的效果。用户可以根据自己的需求定制图像动画效果,让用户能够通过图像传达自己独特的故事和情感。
上海AI实验室升级发布“浦医2.0”OpenMEDLab2.0
上海人工智能实验室与上海交通大学医学院附属瑞金医院等合作伙伴在“2023健康中国思南峰会”上发布了医疗多模态基础模型群“浦医2.0”,旨在为跨领域、跨疾病、跨模态的AI医疗应用提供能力支持。浦医2.0新增了多领域模型,语言参数增量,涵盖医学图像、医学文本、生物信息、蛋白质工程等多个数据模态。整个浦医2.0实现了医疗大模型群的一站式开源,为实现人工智能�
腾讯AI实验室联合悉尼大学引入了GPT4Video 提升LLM的视频生成能力
最近在多模态大型语言模型领域取得了显著进展,但在多模态内容生成方面仍存在明显的空白。为了填补这一空白,腾讯AI实验室和悉尼大学的合作引入了GPT4Video,这是一个统一的多模型框架,使得大型语言模型具备了视频理解和生成的独特能力。该研究还提出了一种简单有效的微调方法,并发布了数据集,为未来的多模态LLMs研究提供了便利。
马斯克正式「切脑」,Neuralink内部实验室照片曝光!7年计划22000例手术,全力研发只为对抗超级AI
马斯克传记作者写了一篇Neuralink最新进展的长文。从明年开始,Neuralink将开始为人类植入脑机接口。」尽管Neuralink想达成的目标非常艰难,尽管这可能是马斯克的吹的又一个牛,但这件事情一旦成功,确实将极大地改善许多人的生活。
深言科技联合清华大学NLP实验室开源LingoWhale-8B模型
深言科技与清华大学NLP实验室联合开源了LingoWhale-8B模型,这是一种拥有约80亿参数的中英双语大语言模型。该模型在多个公开评测基准上达到领先效果,在10B以下开源模型中表现出色。商业用途下需要申请并获得官方授权。