李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型W.A.L.T
谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T,标志着2023年成为AI视频元年。该模型利用因果编码器和窗口注意的变压器架构,成功将图像和视频压缩到一个共享的潜在空间,实现了联合训练和生成。在视频生成建模方面,W.A.L.T以其卓越性能和创新性设计成为当前研究的焦点,为学术界和工业界提供了有力的参考和启示。
李飞飞谷歌破局之作!用Transformer生成逼真视频,下一个Pika来了?
【新智元导读】今天,李飞飞携斯坦福联袂谷歌,用Transformer生成了逼真视频,效果媲美Gen-2比肩Pika。2023年俨然已成AI视频元年!视频大数据时代,真的来了!刚刚,李飞飞的斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。研究人员发现联合培训可以使这两个指标都有显著改善。