Block Diffusion【202503】：在自回归与扩散语言模型之间插值【Interpolating Between Autoregressive and Diffusion LM】

张开发

• 2026/6/4 10:57:06 • 15 分钟阅读

最新文章

推荐文章

相关文章

分享文章

Block Diffusion【202503】：在自回归与扩散语言模型之间插值【Interpolating Between Autoregressive and Diffusion LM】

块扩散：在自回归与扩散语言模型之间插值Marianne Arriola† ∗Aaron Kerem Gokaslan†Justin T. Chiu‡Zhihan Yang†Zhixuan Qi† Jiaqi Han¶Subham Sekhar Sahoo†Volodymyr Kuleshov†摘要扩散语言模型因其并行生成和可控性的潜力，相比自回归模型具有独特优势，但它们在似然建模方面落后且仅限于固定长度生成。本研究引入一类块扩散语言模型，其在离散去噪扩散和自回归模型之间进行折衷。块扩散通过支持灵活长度生成，并利用KV缓存和并行token采样提升推理效率，克服了这两种方法的关键局限。我们提出了一套构建高效块扩散模型的方案，包括高效的训练算法、梯度方差估计器以及数据驱动噪声调度，以最小化方差。块扩散在语言建模基准上为扩散模型创造了新的最先进性能，并能生成任意长度序列。我们提供代码1, 以及模型权重和项目页面的博客文章：https://m‑arriola.com/bd3lms1 引言扩散模型广泛应用于生成图像（Ho等人，2020；Dhariwal Nichol，2021；Sahoo等人，2024b）和视频（Ho等人，2022；Gupta等人，2023），并且在生成离散数据（如文本（Lou等人，2024；Sahoo等人，2024a）或生物序列（Avdeyev等人，2023；Goel等人，2024））方面正变得越来越有效。相较于自回归模型，扩散模

更多文章

【LeetCode】144. 二叉树的前序遍历

前端开发 2026/6/4 10:51:59

【LeetCode】144. 二叉树的前序遍历

题目https://leetcode.cn/problems/binary-tree-preorder-traversal/description/思路根放入左都放入右都放入 code class Solution {List<Integer>list new ArrayList<>();public List<Integer> preorderTraversal(TreeNode root) {List<Integer> l…

作者头像

张开发

别再为ESP8266-01S配网发愁了！用STM32F103精英版+机智云，一个按键搞定AirLink

前端开发 2026/5/9 13:10:46

别再为ESP8266-01S配网发愁了！用STM32F103精英版+机智云，一个按键搞定AirLink

用STM32F103ESP8266-01S实现一键配网的终极方案每次调试ESP8266-01S的Wi-Fi连接都像在玩俄罗斯轮盘赌？SmartConfig时灵时不灵，AT指令配置又太繁琐？今天我要分享一个让配网变得像按开关一样简单的方案——基于STM32F103和机智云平台的AirLink…

作者头像

张开发

2025届最火的降重复率工具解析与推荐

前端开发 2026/5/9 13:10:48

2025届最火的降重复率工具解析与推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 此文对DeepSeek系列论文的关键技术贡献，进行了系统梳理。DeepSeek运用混合专家模…

作者头像

张开发

XBee API模式通信原理与嵌入式集成实战

前端开发 2026/5/9 13:10:47

XBee API模式通信原理与嵌入式集成实战

1. XBee 库技术解析：面向嵌入式系统的 API 模式通信框架XBee 是 Digi International 推出的一系列低功耗、高可靠性的无线射频模块，广泛应用于工业物联网、远程传感器网络、智能农业及楼宇自动化等场景。其核心优势在于支持多种协议栈（Zigbee…

作者头像

张开发

鼎捷T100快速报表开发：如何用azzi310+SQL实现简易查询（附azzi910配置技巧）

前端开发 2026/5/22 7:20:20

鼎捷T100快速报表开发：如何用azzi310+SQL实现简易查询（附azzi910配置技巧）

鼎捷T100敏捷报表开发实战：从SQL到用户菜单的快速交付指南在ERP系统实施过程中，业务部门临时性的数据查询需求总是层出不穷。作为实施顾问，我们常常面临这样的困境：既需要快速响应业务需求，又要确保交付物符合系统规范…

作者头像

张开发

Arduino嵌入式LittleFS文件系统C++封装库

前端开发 2026/6/1 4:27:12

Arduino嵌入式LittleFS文件系统C++封装库

1. 项目概述107-Arduino-littlefs是一个面向 Arduino 生态的轻量级嵌入式文件系统封装库，其核心目标是为资源受限的微控制器平台提供符合 POSIX 风格、具备掉电安全特性的非易失性存储抽象层。该库并非从零实现文件系统逻辑，而是对业界广泛采用的littlef…

作者头像

张开发

Arduino彩色LCD扩展板驱动库深度解析与嵌入式图形开发

前端开发 2026/5/11 10:14:20

Arduino彩色LCD扩展板驱动库深度解析与嵌入式图形开发

1. 项目概述SparkFun Color LCD Shield（型号LCD-09363）是一款专为Arduino平台设计的彩色图形液晶显示扩展板，采用并行8位数据总线接口，内置160128像素TFT面板，支持12位RGB真彩显示（4096色）。该S…

作者头像

张开发

TriCore MPU实战：从寄存器配置到安全任务切换

前端开发 2026/5/22 6:40:31

TriCore MPU实战：从寄存器配置到安全任务切换

1. TriCore MPU基础概念解析第一次接触TriCore的MPU功能时，我被它精巧的设计理念所吸引。与常见的MMU不同，这种基于范围（range-based）的内存保护机制特别适合对实时性要求苛刻的嵌入式场景。想象一下你的系统里有多个任务在同时运…

作者头像

张开发

Harness 中的事务边界定义：微事务与补偿

前端开发 2026/6/3 5:14:53

Harness 中的事务边界定义：微事务与补偿

Harness 中的事务边界定义：微事务与补偿引言核心概念铺垫在开始本文的核心内容——Harness 中的事务边界定义与微事务/补偿实践体系——之前，我们需要先锚定一组贯穿全文的、与 CI/CD 交付流水线强绑定的专属术语与业务通用术语的融合定义：交付事务（Delivery Transac…

作者头像

张开发

从GPS到ENU：手把手教你用MATLAB计算卫星方位角（附避坑指南）

前端开发 2026/5/9 13:10:51

从GPS到ENU：手把手教你用MATLAB计算卫星方位角（附避坑指南）

从GPS到ENU：手把手教你用MATLAB计算卫星方位角（附避坑指南） 在卫星导航和地理信息处理领域，准确计算卫星相对于地面观测点的位置关系至关重要。无论是无人机航迹规划、精准农业还是地质勘探，都需要将原始的GPS坐标转换…

作者头像

张开发

微信聊天记录持久化：基于本地解析技术的个人数据管理方案

前端开发 2026/5/9 13:10:52

微信聊天记录持久化：基于本地解析技术的个人数据管理方案

微信聊天记录持久化：基于本地解析技术的个人数据管理方案【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/we/We…

作者头像

张开发

3DGS Mesh Extraction: Bridging the Gap Between Gaussian Splatting and Surface Reconstruction

前端开发 2026/5/24 0:57:02

3DGS Mesh Extraction: Bridging the Gap Between Gaussian Splatting and Surface Reconstruction

1. 3D高斯泼溅技术入门：从点云到表面重建第一次接触3D高斯泼溅（3D Gaussian Splatting，简称3DGS）时，我完全被它实时渲染的能力震撼到了。这项技术用数百万个微小的3D高斯分布来模拟场景，每个高斯就像半透明…

作者头像

张开发