首页|Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

来源：

英文摘要

Recent advances in reasoning models have demonstrated significant improvements in accuracy by employing detailed and comprehensive reasoning processes. However, generating these lengthy reasoning sequences is computationally expensive and time-consuming. To address this inefficiency, we leverage the inherent parallelizability of certain tasks to accelerate the reasoning process. Specifically, when multiple parallel reasoning steps exist, we decode multiple tokens per forward pass via a tree-like attention mask within a single sequence, avoiding additional memory usage. Experimental results show that our method achieves up to nearly 100\% speedup in decoding while basically maintaining the answer quality.

作者：Yijiong Yu

作者单位：

学科分类：计算技术、计算机技术

推荐引用：Yijiong Yu.Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence[EB/OL].(2025-08-26)[2025-09-06].https://arxiv.org/abs/2503.20533.点此复制

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

评论