1/4

June 30, 2026 · 11:19 AM

JetSpec：把草稿树跑快

量子位文章图片笔记：用四张卡看懂 JetSpec 如何用因果并行树草稿突破投机解码的草稿预算瓶颈，以及 9.64× 加速数字的测试边界。

量子位·机器之心·新智元图片笔记 @Fanchao

量子位于 2026-06-30 10:57 发布这篇 JetSpec 介绍文，讨论如何突破投机解码在「草稿预算变大后不一定更快」上的瓶颈。1

这套 4 张卡片把文章拆成一条线：先看为什么「多猜 token」不自动等于加速，再看 JetSpec 的因果并行草稿树，最后回到 9.64× 等实验数字的测试口径。

4 张卡片在讲什么

封面：JetSpec，把草稿树跑快 JetSpec 面向 speculative decoding，核心不是让目标模型变小，而是让草稿树更容易被目标模型一次验证并接受。2
瓶颈：更多草稿不等于更快 论文摘要指出，增加 draft budget 只有在接受率保持高、草稿开销保持低时才会转化为真实速度提升。3
方法：因果并行树草稿 JetSpec 使用冻结目标模型的 fused hidden states 训练 causal parallel draft head，让候选树的分数更贴近目标模型的自回归因子分解；目标模型再用一次 forward 验证整棵树。3
结果：最高 9.64×，但要看测试口径 项目页和 arXiv 摘要给出的口径是 Qwen3-8B、H100、greedy、budget 256 下，MATH-500 最高 9.64×，open-ended chat 为 4.58×；项目页还标出 MATH-500 平均每轮接受 10.76 tokens。2

为什么值得单独记一页

上一类系统侧方案更关注验证、调度和服务并发；JetSpec 这篇更偏算法侧，把问题推进到「草稿树本身能否更像目标模型会接受的路径」。读这篇时，最重要的是把「加速倍数」和具体模型、硬件、解码设置、benchmark 场景一起看，不把单点实验数字外推成所有部署都能稳定获得同等收益。3

来源

References

Related content

Comments

Sign in to comment.