中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练
扩散模型中,UNet的longskipconnection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中,如Imagen和Score-basedgenerativemodel中,已经观察到设置scaling系数可以有效加速模型的训练过程。最近的一些后续工作也进一步验证了skipconnection上scaling的重要性,为这一领域的发展提供了新的思路和方向。
Melodisco官网体验入口 AI音乐发现和创作平台使用地址
Melodisco是一个AI音乐播放器,专门提供各种风格的AI生成音乐,包括流行、最新和随机等。用户可以在这里发现新鲜有趣的AI音乐作品,同时还可以创作自己的AI音乐。欢迎点击Melodisco官网,探索更多惊喜音乐!
MyShell多语言、多口音文本转语音库MeloTTS开源
MyShell公司宣布其多语言、多口音的文本转语音库MeloTTS正式开源。这一消息在开源社区引起了广泛关注。MeloTTS的开源无疑为文本转语音领域带来了新的可能性,我们期待看到更多的创新和应用。
MyShell AI开发高质量语音合成工具MeloTTS 支持中英混合发音
MeloTTS是由MyShellAI开发的一个高质量的多语言文本到语音库。这个库支持英语、西班牙语、法语、中文、日语和韩语等多种语言,使其在全球范围内具有广泛的应用价值。它遵循MIT许可证,适用于商业和非商业用途。
元象开源大模型XVERSE-Long-256K 支持输入25万汉字
元象发布了全球首个上下文窗口长度为256K的开源大模型XVERSE-Long-256K,支持输入25万汉字,无条件免费商用。该模型填补了开源生态空白,与元象之前的大模型组成了高性能全家桶。用户可以在元象大模型官网或小程序中体验XVERSE-Long-256K。
Lightricks发布LongAnimatediff 解决单次生成视频长度问题
Lightricks公司最近发布了LongAnimatediff项目,这一次主要解决的问题是Animatediff一次只能生成16帧视频的限制。LongAnimatediff则包括两个模型,一个可以最多一次生成64帧的视频,另一个可以生成32帧的视频32帧那个效果更好。目前推荐使用64帧的模型。
LongQLoRA:提升LLMs上下文理解能力
GitHub上一个名为LongQLoRA的新工具引发关注。它的作用是让LLMs能够理解更长的序列。这对于开发者和研究人员来说是一个好消息,他们可以利用这个工具来提升他们的LLMs模型的性能,进在自然语言处理领域取得更好的成绩。