Google展示可生成动作连贯且高品质影片的时空扩散模型Lumiere

2024 年 1 月 27 日 by 国内如何访问google

Google新论文介绍影片生成模型Lumiere，Lumiere是一种文字转影片扩散模型，该模型的主要目的，是创建真实、多样且动作连贯的影片。该模型使用一种称为时空U-Net（Space-Time U-Net，STUNet）基础架构，官方提到，这种技术可以一次生成完整的影片长度，而不需要经过多次处理。

近年图像生成模型有着巨大的进步，能够根据复杂的文字提示，生成高解析度且逼真的图像，不过，研究人员要将文字转图像技术应用到文字转影片领域面临挑战，主要原因在於影片中的动作复杂性。

当前文字转影片模型仍然无法生成长时间，有着高品质视觉效果且动作逼真的影片，研究人员解释，这些模型通常采用分阶段设计，会先生成几个关键画面，接着用时间超解析度（Temporal Super-Resolution，TSR）模型，填充关键画面之间的画面。该方法虽然在记忆体效率上表现良好，但是在生成连贯动作上有其限制。

Google的新模型Lumiere则采用不同的方法，使用STUNet架构一次性生成完整时间长度的影片，该架构能够在空间和时间上同时降采样（Downsample）讯号，在更紧凑的时空表示中进行大部分运算，这使得Lumiere能够生成更长时间、动作更加连贯的影片。Lumiere一次可以生成80影格，以每秒16影格来算，可产生长达5秒的影片，研究人员提到，5秒的长度超过大多数媒体作品中平均镜头时长。

Lumiere建立於一个经过预训练的文字转图像模型之上，首先会由基础模型在像素空间生成图像的基本草稿，接着透过一系列空间超解析度（SSR）模型，逐步提升这些图像的解析度和细节。不过，采用空间超解析度技术针对影片的每一个时窗进行处理，可能会在不同时窗的边界处，产生外观上的不一致，这是因为每个时窗都是独立处理，所以在时窗拼接时，可能会有细节上的差异。

研究人员采用了Multidiffusion方法来解决时窗上的不连续，藉由在不同的时窗上进行空间超解析度处理，并汇整处理过的片段，以确保影片片段在视觉上的一致性和连续性。

整体来说，Lumiere是一个强大的文字转影片扩散模型，能够生成高品质且动作连贯的影片，可用於多种影片编辑和内容创建任务上，诸如影片修复、图像转影片生成，或是生成特定风格影片等。