麻省理工、Meta开源:无需人工标注,创新文生图模型
文生图领域一直面临着一个核心难题,就是有条件图像生成的效果,远超无条件的图像生成。有条件图像生成是指模型在生成图像的过程中,会额外使用类别、文本等辅助信息进行指导,这样可以更好的理解用户的文本意图,生成的图像质量也更高。RCG的FID分数为3.56和IS的253.4,超过了之前最好的无条件生成模型MAGE的结果,与当前状态最好的有条件模型CDM差不多。
Deepgram推创新文本转语音模型Aura 支持实时文本转语音
深瞳公司推出了一款名为Aura的全新文本转语音模型,旨在满足实时语音AI代理的需求。随着大型语言模型的普及,语音交互成为访问LLMs及其解锁体验的主要手段。计划于明年初正式发布开发者可以通过加入Aura的等待列表来获取早期体验并提供直接反馈。