ICML 2026｜拒絕暴力運算，PRISM框架讓dLLM也能高效Test-Time Scaling

近年來，大型語言模型能力的提升焦點，正從「訓練時擴展」轉向「推理時擴展」。從 Best-of-N、Self-Consistency 到更複雜的搜尋與驗證框架，Test-Time Scaling 已成為提升大型模型複雜推理能力的重要範式。

然而，一個長期被忽略的問題是：這些方法大多預設模型是以自迴歸的方式生成。

對於離散擴散語言模型（Discrete Diffusion Language Models, dLLMs）而言，情況完全不同。dLLM 並非由左至右逐個 token 生成，而是從被遮罩的序列出發，透過多步去噪，逐步恢復出完整的答案。這種並行、非自迴歸的生成方式，天生具備全域雙向上下文，也更適合進行規劃與自我修正；但與此同時，傳統為自迴歸模型設計的樹搜尋、過程獎勵模型和 Best-of-N 推理，並不能直接且高效率地套用。

針對此問題，論文提出了 PRISM：Pruning, Remasking, and Integrated Self-verification Method，一個專為離散擴散語言模型設計的高效率 Test-Time Scaling 框架。其核心目標非常明確：不是簡單地讓模型「多跑幾次」，而是在去噪過程中，辨識出更有潛力的軌跡，動態裁剪、局部分支，並利用模型自身完成輕量級驗證，從而在較低的推理預算下，達到甚至超越 Best-of-N 的效果。

論文標題：Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models
arXiv 位址：https://arxiv.org/abs/2602.01842
程式碼位址：https://github.com/viiika/Prism

傳統 Best-of-N 代價高昂，PRISM 重新設計 dLLM 的推理搜尋

對於 dLLM 來說，樸素的 Best-of-N 代價非常直接：如果取樣 N 條軌跡、每條軌跡需要 T 步去噪，那麼總函數呼叫次數就是 O(NT)。這意味著所有候選答案都必須完整跑完，即便其中許多軌跡在中途已經明顯品質不佳，也依然會消耗掉完整預算。

PRISM 的關鍵思路，是把推理過程拆解成三個階段：早期隨機探索、中期漸進裁剪和後期精修。

在高噪聲階段，模型輸出仍然不穩定，因此 PRISM 維持較寬的候選集合以保留多樣性；在早中期的去噪時間窗口，當答案的「邏輯骨架」開始形成時，PRISM 使用自我驗證訊號來裁剪低品質軌跡，並將運算資源重新分配給更有前景的候選；最終，只保留較少數量的軌跡繼續完成精修。論文中將此過程稱為 Hierarchical Trajectory Search（HTS）。

這種設計使得 PRISM 的實際複雜度接近 O(N + KT)，其中 K 是最終保留的較小候選寬度。相比傳統 Best-of-N 的 O(NT)，這相當於把「所有路線都跑到底」改成了「先廣泛探索，再集中火力」。

不是重新開始，而是在低信心 token 上局部分支

PRISM 的第二個關鍵組件是 Local Branching via Partial Remasking。直觀來說，模型在中期去噪時，已經形成了一部分高信心 token，這些 token 往往對應答案的穩定結構或邏輯骨架；與此同時，低信心 token 則可能對應不確定的推理細節、實作方式或局部表達。

PRISM 不會粗暴地丟棄整條軌跡重新取樣，而是保留高信心的部分，只對低信心位置進行重新遮罩，然後從這些局部變化中生成新的分支。這樣做的好處是，它既保留了已有的高品質結構，又能繼續探索不同的細節實作，避免過早收斂到單一路徑。論文圖 2 對這個過程做了直觀展示：在漸進裁剪階段，PRISM 會圍繞高分軌跡進行局部分支，並透過部分重遮罩生成新的候選。

不再依賴外部驗證器：模型自己給自己打分

許多 Test-Time Scaling 方法依賴額外的 reward model 或驗證器來判斷候選答案的品質。但這會帶來顯著的系統開銷：部署時需要額外載入一個模型，記憶體、延遲和工程複雜度都會上升。

PRISM 提出了 Self-Verified Feedback（SVF）：直接複用同一個 dLLM 作為二元分類驗證器。具體來說，模型先根據中間去噪狀態生成一個完整的候選答案，然後構造一個 Yes/No 驗證提示，讓模型判斷該答案是否可能正確。PRISM 將 Yes 和 No 的 logits 轉換為一個二元正規化分數，用於軌跡排序、裁剪和最終選擇。

此設計的價值在於，它把驗證從「需要額外模型」變成了「同一模型的一次輕量級自我檢查」。論文進一步指出，SVF 的呼叫次數相較於去噪 NFE 非常少，實驗中通常低於總 NFE 的 10%，因此能在較低的額外開銷下，提供有效的搜尋訊號。

實驗：在數學推理和程式碼生成上實現顯著性價比提升

論文在四個基準上評估 PRISM：數學推理任務 GSM8K、MATH-500，以及程式碼生成任務 HumanEval、MBPP。實驗涵蓋三個離散擴散語言模型：LLaDA-8B-Instruct、Dream-7B-Instruct 和 LLaDA-2.0-mini。

在 LLaDA-8B-Instruct 上，PRISM（K=8）將 GSM8K 從 67.58% 提升到 85.30%，將 MATH-500 從 26.40% 提升到 42.80%；在程式碼任務上，HumanEval 提升了 24.39 個百分點，MBPP 提升了 16.40 個百分點。更重要的是，這些提升並不是透過線性增加 Best-of-N 運算量得來的：例如在 GSM8K 上，PRISM 用 1048 NFE 達到 85.30%，而 Best-of-16 需要 4096 NFE 才達到 87.50%，實現了超過 4 倍的去噪運算節省。

在論文圖 1 中，PRISM 相較 Best-of-N，在多個任務上展現出更優異的效能—運算曲線：在可比的準確率下，GSM8K、MATH500、HumanEval、MBPP 分別呈現 2.9 倍、6.5 倍、1.8 倍、1.7 倍的速度優勢。

論文還與其他推理期擴展方法進行了比較。在 TruthfulQA 上，PRISM 的 ROUGE-1/2/L 達到 31.8/35.5/31.9，推理時間為 1048.0 秒；相比之下，LLaDA-ReMDM 為 29.5/31.8/29.5，推理時間為 1354.8 秒。這表明 PRISM 不僅能提升任務效能，也能維持更好的推理效率。

在外部驗證器的對比中，SVF 在 GSM8K 上達到 85.30%，只需載入原本的 8B 模型；雖然 Qwen3-8B 驗證器可達到 87.35%，但需要額外載入模型，總參數量達到 16B。論文認為，SVF 的優勢並不在於絕對取代所有外部驗證器，而在於它提供了一條更輕量、更易於部署的 dLLM 推理擴展路徑。

意義：為非自迴歸語言模型打開推理期擴展路線

PRISM 的核心貢獻，並不是簡單地提出一個新的搜尋啟發式方法，而是重新定義了 dLLM 上的 Test-Time Scaling 應該如何發生。

對於自迴歸模型，推理搜尋通常圍繞「前綴」展開；而對於離散擴散模型，中間狀態是部分遮罩的全域序列，傳統的前綴式過程獎勵和樹搜尋並不天然適用。PRISM 將搜尋、裁剪、局部分支和自我驗證，都重新放回 dLLM 的去噪動力學中：在結構形成階段集中分配預算，在低信心區域探索替代表達，在無需額外模型的情況下完成驗證。

這意味著，dLLM 不再只是「並行生成更快速」的替代範式，也可能成為一種適合推理、規劃和自我修正的新型語言模型架構。隨著 LLaDA、Dream、Mercury、Gemini Diffusion 等模型推動離散擴散語言模型走向更大規模，PRISM 展示了一條重要方向：讓非自迴歸模型也能像當前主流 LLM 一樣，透過推理期運算，持續獲得能力提升。

從這個角度來看，PRISM 不只是一個更節省算力的 Best-of-N 替代方案，而是離散擴散語言模型邁向高效推理系統的一塊關鍵拼圖。

作者簡介

本文由 Jinbin Bai 等研究者完成。作者團隊長期關注 discrete diffusion 與 masked generative modeling 等新一代生成範式，研究方向涵蓋高解析度文生圖、統一多模態生成、離散擴散模型的偏好對齊與推理最佳化，以及可互動世界模型等。

此前，團隊曾提出 Meissonic [1]，探索 masked generative transformer 在高解析度文字到圖像生成中的潛力；隨後進一步提出 Muddit [2]，將離散擴散建模從圖像生成推進到更統一的多模態生成框架。此次入選 ICML 2026 的 PRISM，則將此一研究脈絡進一步延伸到推理階段，關注如何透過層次化搜尋、自我驗證回饋和局部 remasking，讓離散擴散模型在無需額外驗證器的情況下，實現高效 Test-Time Scaling。

[1] Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis, ICLR 2025, https://arxiv.org/abs/2410.08261

[2] Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model, ICLR 2026, https://arxiv.org/abs/2505.23606

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

ICML 2026｜拒絕暴力運算，PRISM框架讓dLLM也能高效Test-Time Scaling

相關文章推薦

分享網址