残障人士也能痛快打游戏了!索尼PS5 Access控制器12月6日上市
索尼官方今天宣布,PS5Access控制器将于12月6日上市,售价689元,目前已经开启预售。这是一款专门针对残障人士打造的手柄,可以让他们可以无障碍使用,畅玩3A大作也没问题。值得一提的是,全新的索尼PS5轻薄版国行也将于12月1日在中国大陆市场开售,数字版售价2999元、配备超高清蓝光光驱的光驱版售价3599元,有需求的用户可以关注一下。
Media2Face:支持语音等多模态引导生成3D面部动态表情
从语音合成3D面部动态画面已经引起了相当多的关注。由于缺乏高质量的4D面部数据和注释丰富的多模态标签,以前的方法常常受到现实性有限和缺乏灵活调节的困扰。Media2Face在共语面部动画领域取得了令人瞩目的成果,为面部动画合成的逼真度和表现力开辟了新的可能性。
新型多模态表示学习方法FACTORCL
研究人员推出了一种名为FACTORCL的新型多模态表示学习方法,以解决对比学习在复杂多模态背景下的局限性。现有的多模态预训练技术主要基于多视图学习,利用多视图冗余的关键前提,即通过模态间的信息交换几乎完全与随后的任务相关。研究人员使用FACTORCL在合成数据集和真实世界多模态基准测试中进行的实验证明,包括情感、情绪、幽默、讽刺等方面的预测,以及在六个数据集上达到的最先进性能。
苹果大中华区营收低于预期 iPad及Mac表现较差
美国东部时间周四收盘后,苹果发布了2023财年第四季度的财务报告,业绩超出了分析师的预期。由于收入持续下滑且未来展望不佳,苹果的股价在盘后交易中一度下跌超过4%。Mac收入为76.14亿美元,低于市场预期的86.3亿美元;iPad为64.43亿美元,高于60.7亿美元的预期。
OneChart:仅2亿参数,专门用于图表信息结构化提取
在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉-语言模型也难以令人满意地处理此类任务。研究团队提出的OneChart在图表结构提取方面取得了令人瞩目的成绩,为解决图表解析中的挑战提供了新的思路和方法。
谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表
谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。
谷歌研究团队推新AI方法SynCLR:从合成图像和字幕中学习视觉表征
GoogleResearch和MITCSAIL共同推出了一项名为SynCLR的新型人工智能方法,该方法旨在通过使用合成图像和字幕,实现对视觉表征的学习,摆脱对真实数据的依赖。SynCLR的工作原理研究团队首先提出了一个三阶段的方法。这些改进有望进一步提升合成数据在训练人工智能模型中的效果。
YouTube Music 开始进行创建播放列表封面的生成式 AI 测试
YouTubeMusic近日在美国地区启动了一项新的生成式人工智能测试,使用户能够为其播放列表创建艺术封面。此次测试体现了YouTube对音乐领域生成式AI的探索,同时也为用户提供了更丰富的个性化体验。YouTubeMusic的主要竞争对手Spotify也发布了人工智能功能,包括「人工智能DJ」以及将播客自动翻译成不同语言。