摘要
提升大型语言模型(LLMs)的多步推理能力是一项关键且具有挑战性的任务。目前主流的范式 —— 结果监督强化学习(RLVR)仅对正确的最终答案进行奖励,这往往会导致有缺陷的推理过程被传播,并且存在奖励信号稀疏的问题。尽管过程级奖励模型(PRMs)能提供更密集的、逐步骤的反馈,但它们缺乏泛化性和可解释性,且需要对推理过程进行特定于任务的分割。为此,我们提出了维度级奖励模型(DRM)—— 一种新的监督框架,旨在弥合上述两种方法之间的差距。DRM 从三个基础、互补且可解释的维度对推理过程质量进行评估:用于不确定性校准的 “置信度(Confidence)”、用于语义对齐的 “相关性(Relevance)”,以及用于逻辑一致性的 “连贯性(Coherence)”。这三个维度共同捕捉了超越最终答案正确性的多个方面,且无需真实标签即可实现可解释的评估。实验结果表明,DRM 能提供有效的监督信号,引导大语言模型的优化并提升其推理能力。具体而言,基于 DRM 监督的训练在分布内和分布外的开放域任务(包括数学、问答、代码执行和谜题求解)中均实现了稳定的性能提升。研究结果证明,对推理过程的多维度监督能够提升大语言模型在训练分布之外的泛化推理能力。
1 引言
在大型语言模型(LLMs)的发展过程中,提升其执行复杂多步推理的能力始终是核心挑战之一(Zhang et al., 2025b;Xu et al., 2025)。目前主流的增强范式依赖于带可验证奖励的强化学习(RLVR)(Shao et al., 2024;Yang et al., 2024;Luo et al., 2024),该范式在结果层面进行监督,仅当最终答案正确时才给予正向奖励。然而,这种奖励机制存在根本性局限:
- 忽视推理过程质量:仅对答案进行监督会忽略推理过程的优劣(Yu et al., 2025a)。这可能导致模型因 “推理有缺陷但答案正确” 而获得奖励,却因 “逻辑严谨但最终答案存在微小错误” 而受到惩罚(Xie et al., 2025)。
- 奖励信号失效:当模型在训练集上表现过强或过弱时,RLVR 的奖励信号可能趋于恒定,从而难以对模型优化提供有效指导(Cui et al., 2025)。
为解决这些局限,研究者提出了过程级奖励模型(PRMs),通过对中间步骤进行监督来优化模型(Cheng et al., 2025;Zhang et al., 2025a;Zou et al., 2025)。尽管 PRMs 具有潜力,但也带来了新的挑战:其过程级监督要求将推理过程分割为独立步骤(Xiong et al., 2025;Zou et al., 2025),而这种分割通常是特定于任务的,可能会阻碍模型在步骤模糊或重叠的开放域任务中的泛化(Xiong et al., 2025)。此外,与 RLVR 透明的二元信号不同,PRMs 常作为 “黑箱评估器”,其评分机制难以诊断和信任(Christiano et al., 2023)。
为克服上述局限,我们基于高质量推理过程的关键特征,提出了一种新的监督框架。已有研究表明,推理过程中的非忠实内容会阻碍正确答案的生成(Zhang et al., 2025b)。为检测此类内容,我们的框架从三个互补维度进行评估:
- 置信度(Confidence):衡量推理过程是否忠实于问题和支持性上下文,直接应对模型幻觉或偏离主题的缺陷推理问题;
- 相关性(Relevance):评估推理过程与问题、支持性上下文及最终答案之间的语义关联性和蕴含关系,能够检测推理过程是否偏离给定信息;
- 连贯性(Coherence):通过推理过程的逻辑一致性,惩罚自相矛盾的表述。
表 1 对比了三种监督方法的关键属性,图 1 展示了我们的框架如何作为 “维度级奖励模型(DRM)” 评估推理过程质量,并弥补 RLVR 和 PRMs 的局限。DRM 通过提供密集、关注推理过程的奖励信号(无需特定于任务的真实标签),克服了 RLVR 的核心局限;同时,它无需 PRMs 所需的任务特定步骤分割,并通过在明确、可诊断的维度上对推理过程评分,实现了更强的可解释性。
表 1:监督方法属性对比
属性 | RLVR(结果监督) | PRM(过程监督) | DRM(维度监督) |
---|---|---|---|
监督层面 | 结果层面 | 过程层面 | 维度层面 |
监督目标 | 答案 | 推理过程 | 推理过程 |
密集信号 | ✗ | ✓ | ✓ |
泛化性 | ✓ | ✗ | ✓ |
可解释性 | ✓ | ✗ | ✓ |
无需真实标签 | ✗ | ✓ | ✓ |
(注:图 1 为 RAG 任务中多维度推理监督框架的示意图,原文中包含 RLVR、PRM 与 DRM 的直观对比:RLVR 因仅关注答案,会将 “推理有缺陷但答案正确” 的样本视为正例;PRM 因过程级监督忽略跨步骤错误,也可能对这类样本误判;而 DRM 通过维度级监督检测推理缺陷,给出反映真实推理质量的奖励,从而助力模型优化。)
我们在离线策略选择和在线策略训练两种范式中验证了基于 DRM 的监督有效性,并在具有挑战性的开放域基准测试上评估了训练后的模型。结果表明,基于 DRM 监督的模型在分布内和分布外任务中均表现出色,泛化能力优于仅基于答案监督的模型。以 Llama-3.1-8B-Instruct(Grattafiori et al., 2024)为例,我们的方法在 Math500(数学任务,+8.8 分)(Cobbe et al., 2021a)、2Wiki_RAG(多跳问答任务,+8.7 分)(Ho et al., 2020)和 Cruxeval(代码执行任务,+7.1 分)(Gu et al., 2024)上均实现了性能提升。这种提升趋势在不同模型中均一致存在,充分证明了 DRM 监督的优越性和通用性。定性分析与案例研究表明,DRM 缓解了答案监督中常见的 “推理有缺陷但答案正确” 问题。研究结果证实,多维度推理监督能够提升大语言模型的推理能力及其在分布外任务中的性能。
2 方法:多维度推理监督
任务定义
形式上,设I表示用户输入,O表示模型输出。我们将O分解为推理过程R和答案A。在开放域场景中,I通常不仅包含问题Q:例如在检索增强生成(RAG)任务中,I还包括检索到的文档;在偏好任务中,I可能包含两个待比较的候选响应。设D表示伴随Q的额外信息,则模型的输入 – 输出结构可表示为四元组:\((Q,D,R,A)\)。在大多数任务中,模型性能主要通过A的质量来评估。
已有研究表明,大语言模型在推理过程中有时会生成无支持依据的表述,这会阻碍正确答案的生成(Zhang et al., 2025b;Xu et al., 2025)。为解决这一问题,模型需生成 “忠实推理” 以避免无依据断言,尤其在最终答案上需给出明确结论;此外,推理过程需基于给定输入,并保持内部一致性。这些属性既有助于生成正确答案,也提升了推理过程的可解释性。我们将这些属性归类为高质量推理过程应满足的三个维度:置信度(Confidence)、相关性(Relevance)和连贯性(Coherence),其定义、实现方式如表 2 所示,具体原理如下:
表 2:推理评估维度(基于四元组\((Q,D,R,A)\))
维度 | 描述 | 实现方式 | ||
---|---|---|---|---|
置信度\(\mathrm{score}^{\text{Conf}}\) | 从内在信号评估生成的R和A的自我确定性 | $\mathrm{score}^{\text{Conf}}_{R}=\frac{1}{ | R | }\sum\log p\((计算\)R$ 中所有 token 的平均对数概率) |
相关性\(\mathrm{score}^{\text{Rel}}\) | 评估R与Q、D、A的上下文适配性和语义对齐度 | 通过自然语言推理(NLI)蕴含关系衡量R与Q的关联 | ||
连贯性\(\mathrm{score}^{\text{Coh}}\) | 评估R的逻辑一致性、流畅度和整体质量 | 利用外部结果级奖励模型(ORM)进行评估 |
各维度详细说明
2.1 置信度(Confidence)
该维度评估模型对自身输出的确定性。受推理模型自我置信度评估相关研究的启发(Leang et al., 2025),我们计算推理过程R中所有 token 的平均对数概率,以避免惩罚探索性推理;对于答案A,则计算 token 的对数概率总和,以鼓励模型给出明确、自信的结论。最终置信度得分为这两部分的总和。
2.2 相关性(Relevance)
该维度评估R与Q、D、A之间的必要关联:
- \(Q \rightarrow R\)需满足自然语言推理(NLI)的蕴含关系,确保R有助于回答Q;
- \(R \leftrightarrow D\)需具备高语义相关性,确保R基于额外信息D;
- \(R \rightarrow A\)也需满足 NLI 蕴含关系,确保R能逻辑推导至A。
具体而言,我们将相关性评分转化为排序任务:使用三个分别对应上述关联的指标对推理过程进行排序,再融合这些分数得到最终相关性得分。
2.3 连贯性(Coherence)
该维度评估推理过程的文本质量,重点关注连贯性和逻辑一致性。我们将R视为以\(Q、D\)为输入的文本生成任务输出,通过外部结果级奖励模型(ORM)评估其逻辑一致性、流畅度和整体文本质量,捕捉置信度和相关性无法直接反映的推理质量维度。
DRM 奖励计算与模型优化
通过在置信度、相关性和连贯性三个维度上联合评估推理过程,我们的框架将评估明确分解为互补的维度。如图 1 所示,DRM 在三个独立维度上评估推理质量,每个维度均基于可量化的分数。DRM 奖励通过各维度得分的加权和计算:
\(R^{\text{DRM}}_{i}=\mathrm{score}_{i}=\sum_{D}w^{D}\,\widetilde{\mathrm{score}}^{D}_{i},\quad D\in\{\text{Conf},\text{Rel},\text{Coh}\}\)
其中,\(\widetilde{\mathrm{score}}^{D}_{i}\)是各维度原始得分\(\mathrm{score}^{D}_{i}\)经过组内归一化后的结果(以缓解尺度差异),权重\(w^{D}\)通过验证集上的网格搜索确定。这种设计从根本上避免了 RLVR 的二元稀疏奖励问题,能够反映推理过程的质量;同时,DRM 用 “维度级评估” 替代 PRM 的 “步骤级评分”,无需任务特定的步骤分割,且因维度化特性具备更强的可解释性。此外,无论答案是否正确,DRM 都能通过质量差异区分不同推理过程。
2.4 离线策略优化(基于 DPO)
在离线策略优化中,训练集的构建需遵循监督信号的指导。\(R^{\text{DRM}}_{i}\)可通过捕捉每个样本的推理质量来辅助训练集构建。我们采用直接偏好优化(DPO),其优化目标公式如下:
\(\mathcal{L}_{\text{DPO}}(\theta)=-\mathbb{E}_{(I,O^{+},O^{-})}\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(O^{+}\mid I)}{\pi_{\text{ref}}(O^{+}\mid I)}-\beta\log\frac{\pi_{\theta}(O^{-}\mid I)}{\pi_{\text{ref}}(O^{-}\mid I)}\right)\right]\)
\(O^{+}=\arg\max_{o\in O}R^{\text{DRM}}_{o},\,O^{-}=\arg\min_{o\in O}R^{\text{DRM}}_{o}\)
其中,\(\sigma(\cdot)\)为 sigmoid 函数,\(\beta>0\)控制偏好的尖锐程度,\(O^{+}\)和\(O^{-}\)分别表示 DRM 得分最高和最低的样本。
2.5 在线策略优化(基于 GRPO)
在在线策略优化中,DRM 可作为独立监督奖励信号,或与其他监督信号融合。具体而言,我们从\(R^{\text{DRM}}_{i}\)(样本i的 DRM 奖励)中计算额外的 DRM 优势\(\hat{A}^{\text{DRM}}_{i,t}\),并将其与 RLVR 奖励得到的原生 GRPO 优势\(\hat{A}_{i,t}\)相加,得到优化目标(数学细节见附录 B.2):
\(\mathcal{J}_{\mathrm{GRPO}}(\theta)=\mathbb{E}_{q,\{o_{i}\}}\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_{i}|}\sum_{t=1}^{|o_{i}|}\Bigg\{\min\big[r_{i,t}(\theta)A_{i,t},\;\mathrm{clip}(r_{i,t}(\theta),1-\varepsilon,1+\varepsilon)A_{i,t}\big]-\beta\,\mathbb{D}_{\mathrm{KL}}\big[\pi_{\theta}\,\|\,\pi_{\mathrm{ref}}\big]\Bigg\}\)
\(A_{i,t}=\hat{A}_{i,t}+\hat{A}^{\text{DRM}}_{i,t}\)
其中,\(r_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}\mid q,o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t}\mid q,o_{i,<t})}\)为 token 级概率比,\(\beta\)控制相对于参考策略\(\pi_{\text{ref}}\)的 KL 惩罚强度。
3 实验
我们通过严谨的实验范式提出一系列研究问题,以验证 DRM 监督能否提升模型推理能力,实验结果均对这些问题给出了肯定答案:
- RQ1:对推理过程的评估能否可靠地判断最终答案的正确性?
- RQ2:模型能否学习并利用 DRM 奖励信号提升推理能力?
- RQ3:DRM 监督能否更好地引导训练并优于 RLVR?
- RQ4:结合 RLVR 监督与 DRM 监督能否实现进一步性能提升?
3.1 实验设置
3.1.1 模型
我们在三个代表性模型上评估方法有效性:
- 无固有推理能力的模型:Llama-3.1-8B-Instruct(Grattafiori et al., 2024)
- 推理模型:R1-distil-LLaMA8B(DeepSeek-AI et al., 2025)
- 混合推理模型:Qwen3-8B(Yang et al., 2025)
此外,我们采用 Qwen3-8B-reranker(Zhang et al., )作为相关性判断器,Llama-3.3-Nemotron-70B-Reward-Multilingual(Wang et al., )作为连贯性判断器。
3.1.2 数据集
我们在多种开放域任务上评估方法,包括 4 个代码基准、2 个偏好基准、4 个数学基准、2 个科学问答基准、3 个逻辑推理基准、2 个问答基准及其 RAG 变体(由 FlashRAG 提供)(Jin et al., 2024)。其中,数学任务使用 Math-Verify(Kydlíček, 2024)进行自动解法验证,其他任务均采用精确匹配(EM)作为评估指标。
3.2 评估 DRM 是否能引导生成正确答案(RQ1)
为验证 RQ1,我们进行对比实验:提示模型生成推理过程和最终答案,对每个样本选择 DRM 奖励最高的推理过程,并评估对应答案的正确性(该正确性直接反映 DRM 奖励信号的有效性)。我们将其与两种基线对比:
- 随机采样推理过程的基线(反映无显式监督时的模型原生性能);
- 单独使用 DRM 某一维度(置信度、相关性、连贯性)的基线(评估各维度的独立贡献)。
表 3:各推理监督方法在 RewardBench 2 上的答案正确率(%)
(注:(0.1,0.2,0.7) 表示置信度、相关性、连贯性的权重分别为 0.1、0.2、0.7,每列最高分以粗体标注)
模型 | 随机采样 | 仅置信度 | 仅相关性 | 仅连贯性 | 等权重融合 | 加权融合 (0.1,0.2,0.7) |
---|---|---|---|---|---|---|
LLaMA3.1-8B-Instruct | 67.17 | 65.44 | 72.32 | 78.55 | 77.45 | 78.57 |
R1-Distil-Llama8B | 63.46 | 63.10 | 66.76 | 76.35 | 75.11 | 76.16 |
Qwen3-8B | 84.87 | 83.20 | 85.10 | 85.54 | 85.01 | 85.65 |
如表 3 所示,DRM 的答案正确率始终高于随机采样基线:单独使用置信度得分会轻微降低正确率,但将其与相关性、连贯性融合后性能显著提升,表明这三个维度捕捉了推理质量的互补方面。我们通过验证集网格搜索确定融合权重,并在后续实验中固定该权重(额外支持实验见附录 E)。这些结果证明,三个维度的联合融合提升了推理评估的可靠性,且 DRM 能有效识别出对应更高答案正确率的优质推理过程 —— 这对大多数依赖答案正确性评估的任务至关重要。
3.3 评估 DRM 监督的有效性(RQ2、RQ3)
本部分聚焦 RQ2 和 RQ3,采用含监督微调(SFT)损失的 DPO 进行离线策略强化学习(数学细节见附录 B.1)。我们基于不同监督信号构建独立训练集:DRM 奖励作为推理监督信号(选择推理质量更高的样本),RLVR 奖励作为答案监督信号(基于答案正确性选择样本)。对于 RewardBench 2 中的每个实例,我们提示模型生成 20 个包含逐步推理和最终答案的样本,再根据对应监督信号对样本评分并选择,形成偏好对(构建方式如下)。
3.3.1 训练集构建规则
设x为集合X(同一实例生成的所有样本)中的一个样本,每个样本关联正确性标签\(\mathrm{answer}_{x}\in\{\text{True},\text{False}\}\)和推理质量得分\(\mathrm{score}_{x}\)。正样本集\(X^{+}\)和负样本集\(X^{-}\)通过SUBSET 规则定义,偏好对通过SUPERVISION 方法选择,两者共同唯一确定训练集。
- SUBSET 规则(样本筛选范围):
- any:\(X^{+}=X^{-}=X\)(所有样本);
- T+T:\(X^{+}=X^{-}=\{x\mid\mathrm{answer}_{x}=\text{True},x\in X\}\)(仅正确答案样本);
- T+F:\(X^{+}=\{x\mid\mathrm{answer}_{x}=\text{True},x\in X\}\),\(X^{-}=\{x\mid\mathrm{answer}_{x}=\text{False},x\in X\}\)(正确答案样本 vs 错误答案样本);
- F+F:\(X^{+}=X^{-}=\{x\mid\mathrm{answer}_{x}=\text{False},x\in X\}\)(仅错误答案样本)。
- SUPERVISION 方法(偏好对选择):
- DRM:\(\{(x^{+},x^{-})|x^{+}=\arg\max_{x\in X}\mathrm{score}_{x},\,x^{-}=\arg\min_{x\in X}\mathrm{score}_{x}\}\)(选择 DRM 得分最高和最低的样本对);
- RLVR:\(\{(x^{+},x^{-})|x^{+}=\text{random}(X^{+}),\,x^{-}=\text{random}(X^{-})\}\)(从正 / 负样本集中随机选择样本对)。
我们用 “SUPERVISION@SUBSET” 表示训练集构建方式,例如 “DRM@T+F” 指选择 “DRM 得分最高的正确答案样本” 与 “DRM 得分最低的错误答案样本” 组成偏好对;“RLVR@T+“RLVR@T+F” 则基于 RLVR 假设(相同答案样本等价),通过答案监督构建训练集。
3.3.2 实验结果与分析
我们为每个训练集独立训练模型(完整训练细节见附录 D.3),表 4 展示了以 LLaMA3.1-8B-Instruct 为基础模型的对比结果(其他模型趋势一致,见附录 E.2)。
表 4:RQ2、RQ3 的对照实验结果
(注:数学任务用 math-verify 评估,其他任务用 EM 评估;所有模型训练步数一致以确保公平性,每行最高分以粗体标注)
任务领域 | 数据集 | 原生模型 | RLVR@any | RLVR@T+F | DRM@any | RLVR@T+T | DRM@T+T | RLVR@F+F | DRM@F+F |
---|---|---|---|---|---|---|---|---|---|
代码 | CodeMMLU | 58.8 | 58.8 | 59.5 | 59.9 | 58.9 | 59.6 | 59.6 | 61.3 |
CodeScope | 34.8 | 35.4 | 37.4 | 41.1 | 36.2 | 41.0 | 36.6 | 40.0 | |
Cruxeval | 50.4 | 53.5 | 52.6 | 57.5 | 53.6 | 56.6 | 53.9 | 55.9 | |
Execution-v2 | 38.2 | 40.9 | 43.2 | 45.3 | 39.2 | 45.5 | 40.3 | 46.8 | |
偏好 | RM-Bench | 56.4 | 59.3 | 59.2 | 61.0 | 60.0 | 60.3 | 59.7 | 61.9 |
UltraFeedback | 66.6 | 65.6 | 65.4 | 69.9 | 66.4 | 67.7 | 64.5 | 68.8 | |
数学 | AIME24 | 4.7 | 4.7 | 4.0 | 6.0 | 4.7 | 7.3 | 4.7 | 4.0 |
AMC23 | 22.5 | 23.5 | 23.5 | 29.5 | 23.0 | 25.5 | 22.0 | 26.5 | |
GSM8K | 88.8 | 89.0 | 89.5 | 91.8 | 90.2 | 91.7 | 88.7 | 91.7 | |
Math500 | 39.6 | 41.4 | 43.4 | 48.4 | 42.0 | 46.6 | 40.0 | 48.4 | |
科学问答 | MMLU-Pro | 41.9 | 45.3 | 46.4 | 48.7 | 45.7 | 48.4 | 46.6 | 49.0 |
GPQA | 31.3 | 28.8 | 32.8 | 35.9 | 29.8 | 30.3 | 29.8 | 35.4 | |
逻辑推理 | MuSR | 48.3 | 49.5 | 49.7 | 51.7 | 48.3 | 53.3 | 49.7 | 51.6 |
DROP | 56.9 | 61.0 | 62.9 | 63.6 | 60.0 | 64.4 | 58.5 | 65.1 | |
QASC | 84.4 | 84.0 | 84.2 | 87.2 | 83.8 | 87.8 | 83.4 | 86.2 | |
问答 | 2wiki | 33.8 | 33.2 | 34.6 | 35.6 | 32.3 | 32.7 | 30.7 | 33.4 |
HotpotQA | 29.3 | 29.9 | 30.1 | 31.8 | 29.3 | 30.1 | 29.1 | 29.7 | |
问答 – RAG | 2wiki_RAG | 31.2 | 32.1 | 35.8 | 39.9 | 36.6 | 41.4 | 32.1 | 43.3 |
HotpotQA_RAG | 28.3 | 28.3 | 32.3 | 34.5 | 29.3 | 32.3 | 28.5 | 33.8 |
- RQ2 验证:为评估 DRM 奖励信号能否被有效学习,我们对比 “原生模型” 与 “DRM@any”,并以 “RLVR@any”(随机构建训练集)为对照组。“DRM@any” 完全基于 DRM 奖励信号构建训练集,未引入任何答案正确性信息。表 4 显示,“DRM@any” 在所有数据集上均优于其他设置,且在分布外任务中表现出色,证明模型能泛化到训练分布之外。结果表明,即使没有答案监督(即无真实标签),DRM 监督仍能被模型有效学习。
- RQ3 验证:我们从两个关键方面对比 DRM 与 RLVR 的有效性:
- 性能提升:对比 “RLVR@T+F” 与 “DRM@any”,检验推理监督是否优于仅答案监督。结果显示,“DRM@any” 性能始终更高,证明 DRM 监督的训练效果优于 RLVR。
- 克服局限:对比 “RLVR@T+T” 与 “DRM@T+T”、“RLVR@F+F” 与 “DRM@F+F”,检验当所有样本答案正确性标签相同时(RLVR 无法生成偏好信号),DRM 是否仍能提供有效监督。结果表明,DRM 能区分这类场景下的推理质量,证明其能生成更具信息量的监督信号,扩展模型适用场景。
此外,我们还将 DRM 与三种强基线模型对比(表 5):
- 基于 Sky
- 基于 Skywork-Reward-V2-Llama-3.1-8B(强 ORM)推理监督信号训练的模型;
- 推理增强模型 RLPR(Yu et al., 2025b);
- 推理增强模型 Klear(Su et al., 2025)。
结果显示,DRM 在大多数开放域下游任务中优于所有基线,且在相同骨干模型下超越 RLPR 和 Klear,证明其有效性;同时,DRM 也优于基于 Skywork 监督的模型,表明其能实现更强的泛化推理能力。值得注意的是,我们的训练仅依赖 RewardBench 2 的偏好数据(与奖励模型训练数据类型一致),无需真实标签或任务特定微调,凸显了方法的数据高效性。
3.4 结合 DRM 增强 RLVR(RQ4)
本部分验证 RQ4,通过在线策略 GRPO 训练对比三种优势配置:仅答案监督、仅推理监督、两者融合。该设置直接检验 DRM 监督及 “DRM+RLVR” 融合能否实现性能提升,同时验证离线训练中的趋势是否在在线训练中保持一致(GRPO 训练细节见附录 D.4)。
表 6 显示,在大多数模型骨干和开放域代表性基准上,融合方法的性能与最佳单一监督方法相当或更优(完整结果见附录 E.3),且该趋势在离线设置中也一致存在。融合方法优于 RLVR,表明在策略优化中结合推理监督与答案监督,能通过引导中间推理步骤提升性能;与 DRM 相比,融合方法虽有提升,但在部分推理密集型或知识密集型数据集(如 MuSR、GPQA)中略有下降,这可能是因为 RLVR 忽略推理过程的特性干扰了优化。总体而言,结果证明 “答案监督 + 推理监督” 的融合能在多样开放域任务中实现稳定提升,对 RQ4 给出了肯定回答。
4 分析
4.1 DRM 能否识别高质量推理过程?
如第 2 节所述,大多数任务仅基于答案正确性评估模型,但清晰连贯的推理过程有助于用户评估和信任大语言模型的输出。本部分检验 DRM 能否识别 “真正高质量的推理过程”:我们提示 GPT-4o 判断两种监督方法(RLVR:答案监督;DRM:推理监督)构建的离线训练集中,是否存在 “推理有缺陷但答案正确” 的样本。
图 2 (a) 显示,使用 DRM 时,所有模型的 “推理有缺陷但答案正确” 样本数量均大幅减少。这表明 DRM 相比 RLVR 更偏好推理质量更高的样本,证实推理监督能有效识别 “答案正确且推理严谨” 的样本。结合 3.2 节 RQ1 的实验,我们证明多维度推理监督不仅能提升答案正确率,还能通过减少 “推理有缺陷但答案正确” 的情况,改善推理质量。
4.2 各监督维度的消融实验
我们通过消融实验检验单个推理监督维度的作用:以原生模型为基础,采用相同离线训练设置,每次仅对一个维度(置信度、相关性、连贯性)进行监督,保持其他训练设置不变。
图 2 (b) 显示,单个维度的监督在部分特定任务上能带来提升,但在其他任务上可能导致性能下降。这表明每个维度捕捉了推理能力的不同方面,且在不同任务中表现各异,没有任何单一维度能在多样任务中实现稳健提升。相比之下,融合多个互补维度的 DRM 能产生协同效应,充分利用各维度优势,提升模型泛化能力,实现更广泛、更稳定的性能提升 —— 这种提升无法归因于任何单一主导维度。
5 相关工作
5.1 带可验证奖励的强化学习(RLVR)
RLVR 通过自动可验证的正确性信号作为奖励,引导模型探索能生成正确解的推理路径,有效提升大语言模型的推理能力(DeepSeek-AI et al., 2025;Team et al., 2025;Yang et al., 2025)(Lambert et al., 2025;Zhang et al., 2025b;OpenAI et al., 2024)。Shao 等人(2024)提出 GRPO 作为 RLVR 的优化方法,它是近端策略优化(PPO)(Schulman et al., 2017)的变体,用基于组的相对优势估计替代独立价值函数,无需额外评价模型,支持大规模训练(Shao et al., 2024)。
5.2 奖励模型
5.2.1 结果级奖励模型(ORMs)
给定用户输入,ORMs 评估模型响应并给出反映结果层质量的分数(Zhang et al., 2025b;Zhong et al., 2025)。它们通常在偏好数据集上训练,已应用于多种开放域任务(Liu et al., 2025;Zhong et al., 2025;Liu et al., 2025;Wang et al., )。但由于 ORMs 评估整体响应,可能会给 “推理有缺陷但答案正确” 的样本高分,因为它们未显式评估推理过程(Lightman et al., 2024;Cheng et al., 2025;Wang et al., 2025)。
5.2.2 过程级奖励模型(PRMs)
PRMs 旨在评估推理过程而非仅最终答案。例如,OpenORM(Zhang et al., 2025a)将大语言模型扩展为用于开放域 pairwise 评估的 PRM,但作为训练奖励时效率较低(Zhong et al., 2025);ReasonFlux-PRM(Zou et al., 2025)等点式 PRM 对推理轨迹的每个中间步骤评分,但通常依赖特定于任务的学习分割模式。ROSCOE(Golovneva et al., 2023)和 ReCEval(Prasad et al., 2023)探索了评估思维链质量的方法,但这些方法缺乏对 “模型能否有效学习此类信号” 的实证验证。
6 结论
本文提出一种多维度推理级监督框架,无需真实标签即可自动评估大语言模型的推理质量,将置信度、相关性和连贯性整合为密集且可解释的分数。该框架作为维度级奖励模型(DRM),直接反映推理过程质量:DRM 能提供密集、关注推理的监督信号,无需步骤分割,从而解决了 RLVR 和 PRMs 的核心局限。我们证明,DRM 奖励可应用于离线偏好优化和在线强化学习,且能与可验证答案奖励融合,共同提升推理质量和答案正确性。在多样开放域任务上的实验表明,DRM 在分布内和分布外设置中均实现了稳定提升,凸显了其监督方法的有效性和通用性。值得注意的是,这些提升无需任务特定数据或训练,体现了框架的数据高效性。我们期望,多维度推理监督的研究见解能为未来提升大语言模型推理能力的可解释性和泛化性奠定基础。