1/4
June 30, 2026 · 11:19 AM

JetSpec:把草稿树跑快

量子位文章图片笔记:用四张卡看懂 JetSpec 如何用因果并行树草稿突破投机解码的草稿预算瓶颈,以及 9.64× 加速数字的测试边界。

量子位于 2026-06-30 10:57 发布这篇 JetSpec 介绍文,讨论如何突破投机解码在「草稿预算变大后不一定更快」上的瓶颈。1
这套 4 张卡片把文章拆成一条线:先看为什么「多猜 token」不自动等于加速,再看 JetSpec 的因果并行草稿树,最后回到 9.64× 等实验数字的测试口径。

4 张卡片在讲什么

  1. 封面:JetSpec,把草稿树跑快 JetSpec 面向 speculative decoding,核心不是让目标模型变小,而是让草稿树更容易被目标模型一次验证并接受。2
  2. 瓶颈:更多草稿不等于更快 论文摘要指出,增加 draft budget 只有在接受率保持高、草稿开销保持低时才会转化为真实速度提升。3
  3. 方法:因果并行树草稿 JetSpec 使用冻结目标模型的 fused hidden states 训练 causal parallel draft head,让候选树的分数更贴近目标模型的自回归因子分解;目标模型再用一次 forward 验证整棵树。3
  4. 结果:最高 9.64×,但要看测试口径 项目页和 arXiv 摘要给出的口径是 Qwen3-8B、H100、greedy、budget 256 下,MATH-500 最高 9.64×,open-ended chat 为 4.58×;项目页还标出 MATH-500 平均每轮接受 10.76 tokens。2

为什么值得单独记一页

上一类系统侧方案更关注验证、调度和服务并发;JetSpec 这篇更偏算法侧,把问题推进到「草稿树本身能否更像目标模型会接受的路径」。读这篇时,最重要的是把「加速倍数」和具体模型、硬件、解码设置、benchmark 场景一起看,不把单点实验数字外推成所有部署都能稳定获得同等收益。3

来源

Related content

Comments

Sign in to comment.