刚刚!腾讯优图实验室荣获上海市科技进步奖特等奖!
刚刚!上海市人民政府公布了《上海市人民政府关于表彰 2020 年度上海市科学技术奖获奖人员(项目)的决定》。根据《上海市科学技术奖励规定》,经评审专家初评、复评、终评和上海市科学技术奖励委员会审定,市政府决定, 2020 年度上海市科学技术奖共授奖 281 项(人)。值得一提的是,在 281 项授奖中,由腾讯优图实验室联合上海交通大学、华东师范大学、上海计算机软件技术开发中心共同开展的《面向复杂场景的任务视觉理解技术及
腾讯优图实验室发布“优图AI手语翻译机”
今日,腾讯优图实验室宣布攻克AI手语识别技术,并联合深圳市信息无障碍研究会,正式发布“优图AI手语翻译机”。使用优图AI手语翻译机,听障人士只要面对摄像头做手语,经过后台计算机高速运算,翻译机屏幕就能快速把手语转换成文字,让健听人士秒懂。
超越ControlNet++!腾讯优图提出动态条件选择新架构
超越ControlNet,让文生图更可控的新框架来了!腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl,直接将多模态大语言模型的推理能力集成到文本生成图像)任务中。且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不同的条件,从实现动态多控制对齐。这为可控视觉生成提供了新的视角。
轻量化MobileMamba视觉模型来了|浙大/腾讯优图/华中科大联合出品
浙大、腾讯优图、华中科技大学的团队,提出轻量化MobileMamba!既良好地平衡了效率与效果,推理速度远超现有基于Mamba的模型。轻量化模型研究的主阵地都在CNN和Transformer的设计。MobileMamba通过在不同FLOPs大小的模型上采用训练和测试策略,显著提升了性能和效率。
多图场景用DPO对齐,上海AI实验室等提出新方法,无需人工标注
多图像场景也能用DPO方法来对齐了!由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。MIA-DPO的成功证明了通过偏好优化对齐模型与人类反馈,在提升模型多图像感知与推理能力的同时,也可以保持原有的单图任务性能,为未来的研究奠定了坚实基础。
腾讯AI实验室开发新型智能体框架TRANSAGENTS 专用于处理超长文学内容的翻译工作
腾讯AI实验室开发的"TRANSAGENTS"是一个创新的多智能体框架,专门设计用于处理超长文学内容的翻译工作。这个系统通过创建一个虚拟的翻译出版公司来模拟真实的翻译流程,其中包含多个具有不同职责和专业技能的虚拟角色。这种新型的多智能体翻译系统有望在未来的文学翻译和跨文化交流中发挥重要作用。
上海智能实验室推图文多模态大模型InternLM-XComposer2(浦语·灵笔2)
InternLM-XComposer2是一款先进的视觉-语言模型,在自由组合文本和图像以及理解这两者之间的内容方面表现卓越。这款模型不仅超越了传统的视觉-语言理解能够巧妙地将多样化的输入,如概要、详尽的文本描述和参考图片,融合成包含文本和图像的复合内容,实现高度定制化的创作。这使得InternLM-XComposer2成为当前领先的视觉-语言模型之一,为多领域的创作和理解任务提供了卓越
上海AI实验室开源科学大模型浦科化学,理科能力全线提升,免费商用
最新科学大模型浦科化学,发布即开源!这是上海AI实验室最新开源成果,它基于书生·浦语2.0强大的基座模型能力,通过注入海量化学专业数据,使大模型获得理解和处理化学相关专业任务的知识与能力。值得一提的是,在获得化学能力同时,大模型的数理学科及推理能力还得到增强。基于浦科化学模型,人工智能可为化学研究提供智能化辅助,如化学合成路径规划、化学反应条件优化、实验结果自动化分析等,从提升化学研究的效率和质量。
上海AI实验室等开源,音频、音乐统一开发工具包Amphion
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。开发团队表示,未来,会持续更新这个工具包,加入更多与语音相关的模型,打造成最好用的开源语音工具包之一。
AI视野:GPT-4 API曝出重大漏洞;阿里巴巴推AI画图框架SCEdit;上海AI实验室浦医2.0发布
上海AI实验室升级发布“浦医2.0”上海人工智能实验室与上海交通大学医学院附属瑞金医院等在“2023健康中国思南峰会”上发布了医疗多模态基础模型群“浦医2.0”,为跨领域、跨疾病、跨模态的AI医疗应用提供全面支持。用户可定制图�
上海人工智能实验室最新项目PIA放出演示 可将写实照片转换成3D动漫效果
上海人工智能实验室最新的项目PIA已经放出演示,该项目通过文本控制图片中的内容来生成视频。它可以将写实的照片转换成偏3D动漫的效果。用户可以根据自己的需求定制图像动画效果,让用户能够通过图像传达自己独特的故事和情感。
上海AI实验室升级发布“浦医2.0”OpenMEDLab2.0
上海人工智能实验室与上海交通大学医学院附属瑞金医院等合作伙伴在“2023健康中国思南峰会”上发布了医疗多模态基础模型群“浦医2.0”,旨在为跨领域、跨疾病、跨模态的AI医疗应用提供能力支持。浦医2.0新增了多领域模型,语言参数增量,涵盖医学图像、医学文本、生物信息、蛋白质工程等多个数据模态。整个浦医2.0实现了医疗大模型群的一站式开源,为实现人工智能�
腾讯AI实验室联合悉尼大学引入了GPT4Video 提升LLM的视频生成能力
最近在多模态大型语言模型领域取得了显著进展,但在多模态内容生成方面仍存在明显的空白。为了填补这一空白,腾讯AI实验室和悉尼大学的合作引入了GPT4Video,这是一个统一的多模型框架,使得大型语言模型具备了视频理解和生成的独特能力。该研究还提出了一种简单有效的微调方法,并发布了数据集,为未来的多模态LLMs研究提供了便利。
上海人工智能实验室开源视频生成模型LaVie
LaVie是一款先进的文本到视频生成框架,为用户提供了强大的视频生成工具。通过采用级联潜在扩散模型,LaVie能够生成高质量、逼真的视频内容。视频插值和超分辨率:LaVie不仅能生成单一场景的视频支持对多个视频进行插值,以及将生成的视频进行超分辨率处理,提升视频质量。
上海AI实验室、Meta联合开发开源模型 可为人体生成3D空间音频
近期上海AI实验室与Meta合作推出的开源模型标志着在3D空间音频领域迈出的一大步。该模型通过处理头戴式麦克风的输入音频信号和分析人体姿态关键点,成功地实现了为人体生成3D空间音频的目标。未来仍需进一步优化和拓展,以满足更广泛的应用场景和设备要求。
上海AI实验室开源图文混合创作大模型浦语灵笔
上海人工智能实验室近日推出了首个图文混合创作大模型书生·浦语灵笔,该模型能够根据用户提供的主题或图片,自动创作出图文并茂的文章,为大模型落地应用提供更多可能。浦语灵笔是基于书生·浦语大语言模型的多模态扩展,书生·浦语是上海AI实验室今年7月以来陆续开源的7B及20B版本的大语言模型,为业界提供了完整的大模型研发与应用基座,以及全链条工具体系。浦
上海AI实验室开源工具箱XTuner 8GB显卡就可训练大模型
上海人工智能实验室发布了一款面向大模型训练的开源工具箱XTuner,通过支持多种硬件适配,大幅降低了企业进行大模型训练的门槛,尤其是对中小企业具有重要意义。XTuner为各类开源模型提供了多样的微调框架XTuner支持与多款开源大模型的无缝衔接,可执行增量预训练、指令微调等任务类型。业内人士表示,这将推动我国在人工智能核心领域的技术进步。
上海AI实验室开源“书生·万卷”1.0多模态预训练语料
上海AI实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料“书生・万卷”1.0。这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
央视联合上海人工智能实验室发布央视听媒体大模型CMG Media GPT
7月20日,上海人工智能实验室、中央广播电视总台联合发布“央视听媒体大模型”。央视听大模型具备了强大的视频理解能力和视听媒体问答能力,同时,央视听大模型可根据提供的视频创作文字——从主持词到新闻稿件,甚至诗歌。AI生成的数字人主播以“真人”形象呈现,不仅能根据既定文案和背景场景快速生成播报视频可自动学习真人的语言及动作习惯,做到形象更逼真,表情更自然。
彻底开源,免费商用,上海AI实验室把大模型门槛打下来
大模型领域,有人探索前沿技术,有人在加速落地,也有人正在推动整个社区进步。AI社区迎来首个统一的全链条贯穿的大模型开源体系。书生开源体系可以大幅降低大模型技术探索和落地的门槛,如果你感兴趣,欢迎来试试。