文章作者、来源:机器之心
刚刚,DeepSeek V4进行了一次更新。
新推出了投机解码(Speculative Decoding)框架DSpark,并同步开源了支撑该版本的全栈推测性解码框架DeepSpec。
DeepSeek-V4-Pro-DSpark并非全新架构模型,而是在DeepSeek-V4-Pro基础上引入了推测性解码模块。此次更新的重点在于工程落地,而非模型能力本身的迭代。
DSpark已被部署在DeepSeek-V4(Flash和Pro)的真实线上流量中,大幅加速了大语言模型(LLM)的推理速度。
技术报告:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
技术报告链接:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
DSpark的核心初衷是解决在生产环境中(尤其是高并发场景下)LLM推理面临的延迟和吞吐量瓶颈。简而言之,DSpark成功地将高吞吐量的「并行生成」与自适应的「负载感知验证」结合在了一起。
推测性解码是一种在不改变模型输出分布的前提下加速大语言模型推理的技术。其核心思路是引入一个轻量级的「草稿模型」(draft model),预先生成若干候选token,再由目标模型(target model)对这批候选进行批量验证和接受,从而将串行逐token生成转变为并行批量校验,大幅降低端到端延迟。
在此基础上,DSpark的创新在于引入半自回归生成架构(Semi-Autoregressive Generation):它保留并行草稿模型的高吞吐优势,同时加入轻量级串行模块,对block内token之间的依赖关系进行建模,以缓解并行草稿模型在后续位置上容易出现的接受率衰减问题。
除此之外还有硬件感知的置信度调度验证(Confidence-Scheduled Verification):以往的投机解码通常会盲目地把生成的草稿Token全部送去验证,在系统高负载时,这些极大概率会被拒绝的尾部Token会严重浪费宝贵的批处理算力。DSpark引入了一个置信度头(Confidence Head)来评估每个Token的存活概率。结合硬件感知前缀调度器,系统能够根据实时的引擎吞吐量特征,动态为每个请求量身定制最优的验证长度,将算力只分配给预期回报最高的Token。
为了在真实的线上基础设施中落地,DSpark的调度器采用了异步机制,以兼容零开销调度(ZOS)和连续的CUDA图回放。它利用前两步的历史预测来决定当前的动态截断长度,从而隐藏了调度延迟,避免了GPU流水线停顿,同时保证了目标模型输出分布的完全无损还原。
在涵盖数学推理、代码生成和日常对话等多个领域的测试中,DSpark大幅超越了目前最先进的自回归模型(Eagle3)和并行草稿模型(DFlash)。例如,在Qwen3系列(4B、8B、14B)目标模型上,其平均接受长度比Eagle3提升了26.7%到30.9%,比DFlash提升了16.3%到18.4%。
相比于前一代部署的单Token生产基准(MTP-1),在维持相同总体吞吐量的情况下,DSpark将用户的生成速度分别提升了60%-85%(Flash模型)和57%-78%(Pro模型)。
随DSpark一同开源的还有DeepSpec,这是一个用于训练和评估推测性解码草稿模型的全栈代码库。是承载这个方案以及其他前沿算法实现的「开源基础设施」,包含数据准备工具、草稿模型实现、训练代码和评估脚本。
DeepSpec将整体流程拆分为三个阶段:数据准备、训练和评估。三个阶段需要按顺序运行,前一阶段的输出会作为后一阶段的输入。
数据准备阶段,需下载提示词数据、使用推理引擎对目标模型重新生成答案,并构建目标缓存(target cache)。值得注意的是,以默认的Qwen/Qwen3-4B配置为例,目标缓存体积可达约38TB,使用前需充分评估存储资源。
训练阶段可通过bash scripts/train/train.sh启动。该脚本会调用train.py,并为每张可见GPU启动一个worker。用户可以通过指定config_path,在config/目录下选择不同算法和目标模型配置。项目也支持通过覆盖config_path、target_cache_dir,以及使用--opts修改单个配置字段来调整训练设置。
硬件方面,DeepSpec默认配置和脚本面向单节点8卡环境。如果GPU数量较少,用户需要相应减少CUDA_VISIBLE_DEVICES中的可见GPU数量。
评估阶段则通过bash scripts/eval/eval.sh启动。评估脚本会使用训练好的草稿模型checkpoint,在多个speculative decoding基准任务上衡量接受情况。项目当前列出的评估数据集包括GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca和Arena-Hard-v2,覆盖数学推理、代码生成、对话能力和综合问答等不同任务类型。
算法方面,DeepSpec目前内置三种草稿模型:DSpark、DFlash和Eagle3。目标模型系列方面,项目当前支持Qwen3和Gemma。
DeepSpec的开源,将推测性解码这一此前多散落于各研究团队内部的工程实践,整合为一套可复现、可扩展的标准化工具链。对于希望为自有大模型加速推理的研究者和工程师而言,这意味着可以直接在成熟框架上训练定制草稿模型,跳过大量重复的基础设施搭建工作。

