Block Diffusion【202503】:在自回归与扩散语言模型之间插值【Interpolating Between Autoregressive and Diffusion LM】

张开发
2026/4/7 0:25:21 15 分钟阅读

分享文章

Block Diffusion【202503】:在自回归与扩散语言模型之间插值【Interpolating Between Autoregressive and Diffusion LM】
块扩散:在自回归与扩散语言模型之间插值Marianne Arriola† ∗Aaron Kerem Gokaslan†Justin T. Chiu‡Zhihan Yang†Zhixuan Qi† Jiaqi Han¶Subham Sekhar Sahoo†Volodymyr Kuleshov†摘要扩散语言模型因其并行生成和可控性的潜力,相比自回归模型具有独特优势,但它们在似然建模方面落后且仅限于固定长度生成。本研究引入一类块扩散语言模型,其在离散去噪扩散和自回归模型之间进行折衷。块扩散通过支持灵活长度生成,并利用KV缓存和并行token采样提升推理效率,克服了这两种方法的关键局限。我们提出了一套构建高效块扩散模型的方案,包括高效的训练算法、梯度方差估计器以及数据驱动噪声调度,以最小化方差。块扩散在语言建模基准上为扩散模型创造了新的最先进性能,并能生成任意长度序列。我们提供代码1, 以及模型权重和项目页面的博客文章:https://m‑arriola.com/bd3lms1 引言扩散模型广泛应用于生成图像(Ho等人,2020;Dhariwal Nichol,2021;Sahoo等人,2024b)和视频(Ho等人,2022;Gupta等人,2023),并且在生成离散数据(如文本(Lou等人,2024;Sahoo等人,2024a)或生物序列(Avdeyev等人,2023;Goel等人,2024))方面正变得越来越有效。相较于自回归模型,扩散模

更多文章