上海AI实验室等开源,音频、音乐统一开发工具包Amphion
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。开发团队表示,未来,会持续更新这个工具包,加入更多与语音相关的模型,打造成最好用的开源语音工具包之一。
研究人员教会GPT-4V使用iPhone并在亚马逊应用程序上购物
在当今智能手机技术不断发展的世界中,对能够导航和与移动应用程序复杂界面进行交互的人工智能的需求不断增加。MM-Navigator通过使用GPT-4V代理来满足这一需求,该代理结合了图像处理和文本推理,使其能够在iPhone上执行购物任务。如果进一步发展,我能看到这项技术有各种用途-自动化QA测试,帮助残障人士,甚至在我们忙于其他工作时为我们完成手机上的任务。