与Sora一样能生成视频、图像,还能一次解读100万数据!
大语言模型在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后,让人们意识到未来主流模型一定是文本音频图像视频的多模态生成、理解功能。视频以每秒4帧的速度提取关键帧,特别针对32K、128K和1Mtokens长度进行了优化训练。