腾讯AI实验室联合悉尼大学引入了GPT4Video 提升LLM的视频生成能力
最近在多模态大型语言模型领域取得了显著进展,但在多模态内容生成方面仍存在明显的空白。为了填补这一空白,腾讯AI实验室和悉尼大学的合作引入了GPT4Video,这是一个统一的多模型框架,使得大型语言模型具备了视频理解和生成的独特能力。该研究还提出了一种简单有效的微调方法,并发布了数据集,为未来的多模态LLMs研究提供了便利。
上海智能实验室推图文多模态大模型InternLM-XComposer2(浦语·灵笔2)
InternLM-XComposer2是一款先进的视觉-语言模型,在自由组合文本和图像以及理解这两者之间的内容方面表现卓越。这款模型不仅超越了传统的视觉-语言理解能够巧妙地将多样化的输入,如概要、详尽的文本描述和参考图片,融合成包含文本和图像的复合内容,实现高度定制化的创作。这使得InternLM-XComposer2成为当前领先的视觉-语言模型之一,为多领域的创作和理解任务提供了卓越
上海AI实验室开源科学大模型浦科化学,理科能力全线提升,免费商用
最新科学大模型浦科化学,发布即开源!这是上海AI实验室最新开源成果,它基于书生·浦语2.0强大的基座模型能力,通过注入海量化学专业数据,使大模型获得理解和处理化学相关专业任务的知识与能力。值得一提的是,在获得化学能力同时,大模型的数理学科及推理能力还得到增强。基于浦科化学模型,人工智能可为化学研究提供智能化辅助,如化学合成路径规划、化学反应条件优化、实验结果自动化分析等,从提升化学研究的效率和质量。
上海AI实验室等开源,音频、音乐统一开发工具包Amphion
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。开发团队表示,未来,会持续更新这个工具包,加入更多与语音相关的模型,打造成最好用的开源语音工具包之一。
AI视野:GPT-4 API曝出重大漏洞;阿里巴巴推AI画图框架SCEdit;上海AI实验室浦医2.0发布
上海AI实验室升级发布“浦医2.0”上海人工智能实验室与上海交通大学医学院附属瑞金医院等在“2023健康中国思南峰会”上发布了医疗多模态基础模型群“浦医2.0”,为跨领域、跨疾病、跨模态的AI医疗应用提供全面支持。用户可定制图�
上海人工智能实验室最新项目PIA放出演示 可将写实照片转换成3D动漫效果
上海人工智能实验室最新的项目PIA已经放出演示,该项目通过文本控制图片中的内容来生成视频。它可以将写实的照片转换成偏3D动漫的效果。用户可以根据自己的需求定制图像动画效果,让用户能够通过图像传达自己独特的故事和情感。
上海AI实验室升级发布“浦医2.0”OpenMEDLab2.0
上海人工智能实验室与上海交通大学医学院附属瑞金医院等合作伙伴在“2023健康中国思南峰会”上发布了医疗多模态基础模型群“浦医2.0”,旨在为跨领域、跨疾病、跨模态的AI医疗应用提供能力支持。浦医2.0新增了多领域模型,语言参数增量,涵盖医学图像、医学文本、生物信息、蛋白质工程等多个数据模态。整个浦医2.0实现了医疗大模型群的一站式开源,为实现人工智能�
上海人工智能实验室开源视频生成模型LaVie
LaVie是一款先进的文本到视频生成框架,为用户提供了强大的视频生成工具。通过采用级联潜在扩散模型,LaVie能够生成高质量、逼真的视频内容。视频插值和超分辨率:LaVie不仅能生成单一场景的视频支持对多个视频进行插值,以及将生成的视频进行超分辨率处理,提升视频质量。
上海AI实验室、Meta联合开发开源模型 可为人体生成3D空间音频
近期上海AI实验室与Meta合作推出的开源模型标志着在3D空间音频领域迈出的一大步。该模型通过处理头戴式麦克风的输入音频信号和分析人体姿态关键点,成功地实现了为人体生成3D空间音频的目标。未来仍需进一步优化和拓展,以满足更广泛的应用场景和设备要求。