扩散模型(DiffusionModel)如今已被广泛应用于AI多媒体生成领域。
为了应对这一挑战,业界已提出了多种扩散蒸馏技术,例如直接蒸馏、对抗蒸馏、渐进蒸馏和变分分数蒸馏等。
然而,这些方法要么需要大量样本、计算成本高昂,要么训练复杂度较高、样本多样性有限。
近日,OpenAI的研究团队发布了一项新研究成果,旨在为这一问题提供新的解决方案。
他们探索了一种可简化、稳定化和可扩展的新模型,OpenAI官网更新了该成果的简介,相关论文发表在预印本平台arXiv上。
在论文中,研究人员介绍了一种全新的“连续时间一致性模型(sCM,continuous-timeconsistencymodel)”。
该模型可以让AI生成多媒体内容的速度提升50倍,为未来更快速、更高效的实时AI生成应用开辟了广阔前景。
简单来说,sCM是基于传统扩散模型改进的新模型。通常情况下,这些模型在产出一个样本之前,必须经历数十至数百个连续的步骤,这种低效率严重限制了其在实时应用场景中的使用。
而OpenAI新提出的sCM模型改变了这一局面,它只需要两个采样步骤就能生成出与传统扩散模型相媲美的高质量内容,使高效AI生成应用成为可能。
据介绍,sCM是在一致性模型(CM,ConsistencyModel)的基础上开发的。
研究人员吸取了EDM流匹配(FlowMatching)技术的优点,提出了TrigFlow。这是一个统一的框架,大大简化了模型的构建过程。
研究团队还分析了CM训练不稳定的根本原因,基于此他们提出解决方案,例如改进网络架构中的时间调节和自适应组规范化。
此外,他们还重新制定了连续时间CM的训练目标,结合了关键词的自适应加权和规范化,配合渐进退火,进而实现稳定且可扩展的训练。
值得一提的是,该论文作者之一、OpenAI战略探索团队负责人宋飏(YangSong)曾与OpenAI前首席科学家伊利亚·萨茨克维尔(IlyaSutskever)合作,在2023年首次提出了CM的概念。如前文所说,这一概念为本次研究奠定了重要基础。
这种创新方法的效果惊艳。研究人员在CIFAR-10、ImageNet64×64和ImageNet512×512上训练sCM模型,最大的模型拥有15亿个参数,是迄今为止训练的最大CM模型。
这个模型仅需0.11秒就能在单个A100图形处理器(GPU,GraphicsProcessingUnit)上生成一个样本。
相比之下,传统扩散模型需要超过5秒。这种显著的速度提升不仅提高了生产效率,还为实时交互应用创造了可能。
在图像质量评估方面,该模型在ImageNet512×512上实现了1.88的FID(FréchetInceptionDistance,一种评估生成模型性能的指标)评分,与需要数百个采样步骤的最佳扩散模型相比,质量差距只有不到10%。
在CIFAR-10和ImageNet64×64等数据集上,sCM同样表现出色,分别获得了2.06和1.48的FID评分。
这些成绩证明,快速生成与高质量输出并非不可兼得,sCM成功实现了两者的平衡,同时保证了通用性,也展示了其在不同场景下的适应能力。
OpenAI介绍称,从技术原理来看,传统扩散模型实现生成样本通常有大量去噪步骤的过程,这也是其速度慢的主要原因。
而sCM模型则采用了更直接的方式,可以在一至两个步骤内直接把噪声转成高质量样本,从而大幅降低了计算成本和时间。
更令人兴奋的是,研究发现sCM的性能会随着“教师扩散模型(TeacherDiffusionModel,用于知识蒸馏的预训练模型)”的规模扩大而同步提升。
两者的规模在都扩大的情况下,它们的样本质量差距将逐渐缩小,而增加sCM的采样步骤则能够进一步减小该差异。这种可扩展性为未来模型的进一步优化提供了明确的方向。
尽管如此,这项技术仍存在一些局限性。最好的sCM模型仍然需要依赖预训练的扩散模型来进行初始化和蒸馏,这导致其在样本质量上与“教师模型”之间仍有一定差距。
此外,FID评分作为样本质量的衡量标准也有其自身的局限性,评分的接近并不总能完全反映实际的样本质量,这些问题也将成为未来的改进方向。
研究团队对媒体表示,通过系统优化,sCM的性能还有提升空间。这种优化可能包括更高效的计算方法、更先进的架构设计,以及更优的训练策略。
这些潜在的改进将使sCM在更多领域发挥作用,以满足不同行业的具体需求。
“我们将继续致力于开发更好的生成模型,提高推理速度和样本质量。”
OpenAI写道,“我们相信,这些进步将为更广泛的实时、高质量生成式AI应用带来新的可能性。”
参考资料:
运营/排版:何晨龙