语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS
伴随着生成式深度学习模型的飞速发展,自然语言处理和计算机视觉已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。使用扩散解码器的十亿参数SpeechGPT需要69.1秒才能完成合成使用语音编码解码器的相同SpeechGPT只需要17.8秒。
一个月涨粉超10万,B站“赛博召唤术”的风,吹到了快手和小红书
B站“赛博召唤术”的风,吹到了小红书和快手。“头号AI玩家”在小红书冲浪🏄时发现,有一个叫“AI智聊”的账号频繁被网友召唤到评论区,回答五花八门的问题。才能让AIbot在社交媒体平台健康地生根发芽。