左手AI右手UGC,游戏正在走向元宇宙新形态?
2024年游戏开发者大会正式落幕,毫无疑问的,AI是今年游戏行业最主要的关键词。在700多场主题演讲与研讨中,有300多场会议涉及AI,相较去年行业对AI的“观望”,今年关于AI的呈现则深入到游戏研发的具体环节,腾讯、网易也都在GDC上分享了各自与AI相关的理论与成果。我们的分析有些充满想象,但左手AI右手UGC已经成为当下国内游戏大厂们的现实背景,至于到底会不会和元宇宙挂钩只能等待时间给出答案,不过游戏走向跨时代发展,提供与以往不同的全新体验确实就在眼前了。
腾讯发布自研游戏AI引擎:3D城市布局效率提升百倍,UGC工具已上线《元梦之星》
现在连引擎都有AI味儿了——就在游戏开发者大会上,腾讯刚刚发布自研游戏AI引擎GiiNEX。基于生成式AI和决策AI技术,GiiNEX可以支持游戏从研发到运营的全生命周期需求。围棋AI“绝艺”、会打王者荣耀的“绝悟”都来自于该团队。
全面开放UGC入口,支付宝内容化想好了吗?
支付宝在内容化这条路上又向前一步。在众多“超级APP”如美团、微信等纷纷引入短视频和直播带货,投向内容化的当下,作为支付工具的支付宝也没有落下。在这种业务大融合的趋势下,每个平台需要把握自己的核心优势,才有可能在抢占用户注意力的竞争中取得领先地位。
支付宝生活号全面开放UGC入口
11月7日,据“支付宝开放平台”公众号消息,支付宝生活号全面开放UGC入口,支持用户在App首页第三Tab发布短视频内容。支付宝生活号陆续上线了创作者中心、热点榜单等多个内容产品能力推出了多项内容激励政策。支付宝正加快内容产品能力铺设和创作者生态建设。
多模态语言模型Reka Core:可分析图片、视频、音频 评测得分与GPT-4接近
RekaAI近日宣布推出其最新力作——RekaCore,这是一款前沿的多模态语言模型,拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频,评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持,Reka已经准备好迎接更广泛的挑战,展望未来,我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。
Hand Talk:利用AI自动将文本和音频翻译成手语
在帮助听障人士获取信息方面,HandTalk应用的开发无疑是一项重要的创新。这款应用由人工智能驱动,能够自动将文本和音频翻译成美国手语和巴西手语,为全球约4.66亿聋人和重听人士提供了一个融入社会的新途径。该平台自在巴西推出HandTalk插件以来,已翻译了近20亿个单词,这一数字足以证明其在全球范围内的影响力和重要性。
AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快
AssemblyAI最新研究成果展示了他们的Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。Universal-1比WhisperLarge-v3更准确,比fastWhisper更快,38秒可以处理60分钟音频。值得一提的是,非开源,仅提供API调用。
Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐 时长达3分钟
著名开源大模型平台Stability.ai在官网正式发布了音频模型StableAudio2.0。这一版本支持用户通过文本或音频生成多种类型的高质量音乐,时长可达3分钟44.1kHz。随着Stability.ai不断推出新功能和技术,用户可以期待更多高质量、多样化的音乐生成体验。
Skeleton Fingers官网体验入口 AI音频转录工具在线使用地址
SkeletonFingers是一款基于AI技术的网页音频转录产品。它可以直接在浏览器中将音频链接、上传的音频文件或语音录制转换为文字。SkeletonFingers产品特色音频链接转录本地音频文件转录语音录制转录导出文本想要了解更多关于SkeletonFingers的信息以及开始音频转录之旅,请访问SkeletonFingers官网。
EMAGE官网体验入口 AI手势生成音频手势建模软件下载地址
EMAGE是一种统一的整体共话手势生成模型,通过表情丰富的掩蔽音频手势建模来生成自然的手势动作。它可以从音频输入中捕捉语音和韵律信息,并生成相应的身体姿势和手势动作序列。EMAGE能够生成高度动态和表现力丰富的手势,从而增强虚拟人物的互动体验。点击前往EMAGE官网体验入口谁可以从EMAGE中受益?EMAGE适用于虚拟人物动画、人机交互系统、虚拟助手等领域的用户。�
EMAGE:上传音频就能生成全身动作 包括头部、嘴型、身体运动
多所知名大学和研究机构的研究人员共同提出了EMAGE框架,旨在从音频和掩码手势生成全身人类手势。EMAGE技术能实现输入音频生成全身动作,包括头部、嘴型、身体、手部和整体运动,跟之前Meta的audio2photoreal很像。研究团队表示,他们的代码和数据集已经公开提供,供学术和工业界使用。
Media.io官网体验入口 AI视频音频编辑工具在线使用地址
Media.io是一个在线平台,提供一系列便携式的AI工具,用于视频、音频和图像编辑。它提供了视频卡通化、AI头像生成器、图像增强器和水印去除器等功能。要了解更多关于Media.io的信息,并体验其丰富的编辑功能,请访问Media.io官方网站。
AniPortrait官网体验入口 腾讯AI音频驱动人脸动画生成工具免费使用地址
AniPortrait是一个根据音频和图像输入生成会说话、唱歌的动态视频的项目。它能够根据音频和静态人脸图片生成逼真的人脸动画,口型保持一致。想要了解更多关于AniPortrait的信息并开始体验音频驱动人脸动画生成工具,请访问AniPortrait官方网站。
耳机革命!高通发布第三代S3、S5音频平台:AI性能提升超50倍
高通今日推出两款全新的先进音频平台第三代高通S3音频平台和第三代高通S5音频平台。两大平台分别将面向中端和高端层级耳塞、耳机和音箱提升无线音频体验。这将为高端耳塞、耳机和音箱带来更加出色的音频体验。
宣称超过XTTS!VoiceCraft:一个支持克隆语音及修改原始音频文本的语音模型
一款名为VoiceCraft的语音模型引起了业界的广泛关注。该模型的性能已经超过了XTTS,这无疑为AI音频处理领域带来了新的突破。虽然目前还没有详细的试用报告出炉,但从已经公开的演示效果来看,VoiceCraft的表现确实令人印象深刻,显示出了巨大的潜力。
价格砍半只要459元!小米MIJIA智能音频眼镜悦享版官宣
今天上午小米正式官宣了全新的智能眼镜MIJIA智能音频眼镜悦享版。新品将于3月27日上午10点开启众筹,价格只要459元,对比之前的899元几乎砍半,这个价格会让更多用户愿意尝试。镜腿双侧设计有30mm触控区,支持盲操。
499元 小米蓝牙音箱开售:自研计算音频、澎湃智联
今日上午10:00,小米蓝牙音箱将正式开售,首发到手价499元。ID设计上,小米蓝牙音箱机身采用编制网布,机身底部为减震软胶,保证了户外抗磨耐用,外层包覆疏水涂层,支持IP67防尘防水。小米蓝牙音箱内置4800mAh电池,满电状态支持17小时播放,支持Type-C22.5W快充及反向充电,户外可作为充电宝应急使用。
阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频
阿里巴巴智能计算研究所提出了一种新的生成式框架EMO,只需输入图片和音频即可生成具有表现力的视频视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配,但也可能成为造假的利器,因此一些名人可能需要警惕了。需要注意的是,该框架目前仅用于学术研究和效果演示有待进一步优化和扩展其应用范围。
Pika推出Lip Sync功能 支持视频人物嘴部动画和音频同步
创新视频生成工具Pika最近推出了一项名为LipSync的新功能。这项功能旨在帮助用户在生成视频中实现嘴部动画和音频的同步,从提供更加生动和逼真的视频体验。Pika的这些功能,无论是新推出的LipSync是之前的视频画面扩充和风格调整,都极大地增强了用户的视频创作能力,使得他们可以更轻松地制作出生动、有趣、富有创意的视频。
X将向所有用户推出音频和视频通话功能
X,马斯克旗下的社交平台,在去年推出了一项新功能,允许用户进行语音和视频通话。这项功能仅限于高级订阅用户使用。用户还可以控制谁可以给他们打电话,并且甚至可以关闭通话功能以避免被陌生人骚扰。