应用科技

Google展示可生成动作连贯且高品质影片的时空扩散模型Lumiere

Google新论文介绍影片生成模型Lumiere,Lumiere是一种文字转影片扩散模型,该模型的主要目的,是创建真实、多样且动作连贯的影片。该模型使用一种称为时空U-Net(Space-Time U-Net,STUNet)基础架构,官方提到,这种技术可以一次生成完整的影片长度,而不需要经过多次处理。

近年图像生成模型有着巨大的进步,能够根据复杂的文字提示,生成高解析度且逼真的图像,不过,研究人员要将文字转图像技术应用到文字转影片领域面临挑战,主要原因在於影片中的动作复杂性。

当前文字转影片模型仍然无法生成长时间,有着高品质视觉效果且动作逼真的影片,研究人员解释,这些模型通常采用分阶段设计,会先生成几个关键画面,接着用时间超解析度(Temporal Super-Resolution,TSR)模型,填充关键画面之间的画面。该方法虽然在记忆体效率上表现良好,但是在生成连贯动作上有其限制。

Google的新模型Lumiere则采用不同的方法,使用STUNet架构一次性生成完整时间长度的影片,该架构能够在空间和时间上同时降采样(Downsample)讯号,在更紧凑的时空表示中进行大部分运算,这使得Lumiere能够生成更长时间、动作更加连贯的影片。Lumiere一次可以生成80影格,以每秒16影格来算,可产生长达5秒的影片,研究人员提到,5秒的长度超过大多数媒体作品中平均镜头时长。

Lumiere建立於一个经过预训练的文字转图像模型之上,首先会由基础模型在像素空间生成图像的基本草稿,接着透过一系列空间超解析度(SSR)模型,逐步提升这些图像的解析度和细节。不过,采用空间超解析度技术针对影片的每一个时窗进行处理,可能会在不同时窗的边界处,产生外观上的不一致,这是因为每个时窗都是独立处理,所以在时窗拼接时,可能会有细节上的差异。

研究人员采用了Multidiffusion方法来解决时窗上的不连续,藉由在不同的时窗上进行空间超解析度处理,并汇整处理过的片段,以确保影片片段在视觉上的一致性和连续性。

整体来说,Lumiere是一个强大的文字转影片扩散模型,能够生成高品质且动作连贯的影片,可用於多种影片编辑和内容创建任务上,诸如影片修复、图像转影片生成,或是生成特定风格影片等。

国内如何访问google