摘要
自动驾驶(AD)系统处理复杂任务的能力日益增强,这主要得益于深度学习和人工智能领域的最新进展。随着自动驾驶系统与人类之间交互的增多,驾驶系统决策过程的可解释性对于确保安全驾驶操作变得愈发关键。成功的人机交互需要理解环境和驾驶任务的潜在表征,而这在基于深度学习的系统中仍是一项重大挑战。为解决这一问题,我们引入了驾驶安全场景下机动动作发生前的可解释性预测任务,即驾驶员意图预测(DIP),该任务在自动驾驶系统中发挥着关键作用。
为推动可解释驾驶员意图预测领域的研究,我们构建了可解释驾驶动作预测数据集(DAAD-X)。这是一个全新的多模态第一视角视频数据集,能够为驾驶员的决策提供分层、高级别的文本解释,作为其因果推理依据。这些解释既来源于驾驶员的视线,也来源于自车视角。
其次,我们提出了视频概念瓶颈模型(VCBM)—— 一种无需依赖事后技术,就能从本质上生成时空连贯解释的框架。最后,通过在 DAAD-X 数据集上对所提 VCBM 模型进行大量评估,我们发现基于 Transformer 的模型比传统基于卷积神经网络(CNN)的模型具有更强的可解释性。此外,我们还引入了多标签 t-SNE 可视化技术,以展示多种解释之间的解纠缠关系和因果相关性。
本研究的数据集、代码和模型可通过以下链接获取:https://mukil07.github.io/VCBM.github.io/
1 引言
机动动作:左转
避开障碍物并减速 偏离原路线
现有自动驾驶系统
(机动动作 + 解释 + GradCAM)VCBM 解释
停放车辆
自车
前方车辆
前方有来车 左转 发生碰撞
意图:左转
解释

图 1:驾驶员意图预测任务的自动驾驶场景示意图。在转弯处遇到停放车辆或低速行驶车辆时,自动驾驶系统可能意图左转。现有驾驶员意图预测模型因缺乏人机交互理解能力,可能无法预判障碍物,从而引发潜在碰撞风险。所提出的可解释模型 VCBM 能够让自车对其预期动作进行解释、更有效地预判障碍物并相应调整机动动作,进而提升安全性,实现更透明的决策。
在安全关键型应用中 [26],对深度神经网络的依赖日益增加,但深度神经网络的 “黑箱” 特性引发了诸多担忧,其可解释性的缺失便是其中之一。在自动驾驶领域 [16, 38],这种透明度的缺失使得用户难以信任人工智能驱动的决策,进而带来安全和责任认定方面的挑战,在事故场景中尤为突出。要实现自动驾驶系统的安全部署,模型不仅需要能预测驾驶动作,还需为其决策提供人类可理解的解释。
以图 1 所示场景为例:一辆自动驾驶汽车高速行驶,试图在道路交叉口左转。转弯过程中,一辆停放的车辆处于视线盲区,未被自动驾驶汽车的传感器检测到。在这类场景下,现有驾驶员意图预测(DIP)方法 [37, 18] 可能无法识别停放车辆,从而增加险些碰撞或实际碰撞的风险。因此,在上述情况下,驾驶员意图预测模型的可解释性至关重要。可解释的驾驶员意图预测模型能够揭示系统为何忽略此类情况,这有助于诊断故障并改进模型学习。此外,可解释模型还能提供高级别解释,优化决策过程,增强人们对自动驾驶技术的信任与信心。信任不仅取决于模型性能,还取决于能否对模型决策进行审查、解释和持续优化,最终实现更安全、更可靠的系统部署。
传统驾驶员意图预测数据集(如 Brain4Cars [10]、Viena²[2]、HDD [23]、AIDE [39] 和 DAAD [37])主要侧重于预测机动动作或智能体轨迹,并未提供上下文解释。这一局限性导致驾驶员意图预测模型无法在 “发生了什么” 的基础上进一步学习和评估 “为什么会发生”。为填补这一空白,我们引入了 DAAD-X 数据集(见表 1),该数据集既包含驾驶机动动作(发生了什么),也包含相应的解释(为什么发生),能够为模型提供更丰富的可解释性支持。
然而,由于架构上的局限性,现有驾驶员意图预测架构无法直接有效利用这类解释。例如,VideoMAE [32]、DINOv2 [21] 和 MViTv2 [17] 等最新架构将空间和时间信息编码为扁平化令牌表征,难以从中提取人类可理解的信息。尽管帧排序、运动预测等自监督任务有助于捕捉时间动态,但所学特征往往无法与人类可理解的概念直观对应。这些局限性表明,我们需要研发能够将所学特征与解释明确关联的模型,确保机动动作预测与可解释性得到协同优化。
为解决这一问题,我们引入了概念瓶颈模型(CBM)[14],这类模型在提升模型可解释性方面应用广泛。概念瓶颈模型通过训练某一层的每个神经元来代表一种解释,将高度不可解释的特征转换为低维、人类可理解的解释。这些解释被输入到稀疏线性层中,用于模型的最终预测。通过这种方式,模型的最终预测可通过可解释性解释的线性组合进行简单解读。
但将概念瓶颈模型应用于视频任务并非易事,因为它无法理解视频数据固有的时间上下文,而这一问题在现有文献中尚未得到充分研究。
为克服这些挑战,我们提出了视频概念瓶颈模型(VCBM)。通过将时空一致的令牌与概念瓶颈模型相结合,我们的方法能够生成高级别解释,自然地捕捉时空特征,实现了性能与可解释性的兼顾。为提升驾驶员意图预测模型的可理解性,本研究做出了以下贡献:
- 提出 DAAD-X 数据集 —— 一个多模态驾驶动作预测视频数据集,包含分层的车内视线解释和车外自车视角解释。该数据集为驾驶机动动作提供了人类可理解的依据,提升了模型的可解释性和决策透明度。
- 提出一种多模态视频感知概念瓶颈模型(VCBM),该模型具备可学习令牌合并和局部化概念瓶颈功能。我们的方法能有效利用时空特征对解释进行解纠缠处理。据我们所知,这是首个专为基于视频的模型设计的基于概念的可解释性方法。
- 在 DAAD-X 数据集上展示了 VCBM 模型的定性结果,证明其在多种骨干模型上均有性能提升。此外,我们引入了多标签 t-SNE 可视化技术,以突出视频中多种解释之间的因果相关性,帮助更深入地理解模型的推理过程。
表 1:数据集对比。我们的数据集是 DAAD 数据集 [37] 的子集,针对多模态视频新增了多种解释类别,涵盖车内(Aria 视线追踪)和车外(自车)两种视角。
数据集 | 车内视角数量 | 车外视角数量 | 多模态数据 | 视频数据 | 视线追踪 | 解释标注(eX-Annotation) | 时间 / 帧解释(eX-Temporal/Frame) | 场景解释(eX-Scene) | 视角解释(eX-PoV) | 语义解释(eX-Semantic) | 因果解释(eX-Causality) |
---|---|---|---|---|---|---|---|---|---|---|---|
HDD[23] | 0 | 1 | 否 | 是 | ✗ | 无(N/A) | 无(N/A) | ✗ | ✗ | ✗ | ✗ |
ROAD[29] | 0 | 1 | 否 | 是 | ✗ | 无(N/A) | 无(N/A) | ✗ | ✗ | ✗ | ✗ |
Dr(eye)[22] | 1 | 1 | 是 | 是 | ✓ | 无(N/A) | 无(N/A) | ✗ | ✗ | ✗ | ✗ |
DAAD[37] | 2 | 4 | 是 | 是 | ✓ | 无(N/A) | 无(N/A) | ✗ | ✗ | ✗ | ✗ |
BDD-OIA[38] | 0 | 1 | 否 | 否 | ✗ | 分类式 | 帧级别 | ✓ | ✗ | ✗ | ✗ |
BDD-X[13] | 0 | 1 | 否 | 是 | ✗ | 上下文式 | 时间级别 | ✓ | ✗ | ✓ | ✓ |
DAAD-X(本文) | 2 | 4 | 是 | 是 | ✓ | 分类式 | 时间级别 | ✓ | ✓ | ✓ | ✓ |
注:eX 代表解释(explanation)
2 相关工作
2.1 驾驶员意图预测
学界已探索多种方法用于识别自车动作和驾驶员意图。早期方法(如隐马尔可夫模型 [33])主要关注车辆状态预测,而近年来的研究则转向基于深度学习的驾驶员动作预测。传统上,双向循环神经网络(RNN)[20] 和卷积神经网络 – 长短期记忆网络(CNN-LSTM)架构 [9, 10, 11, 12, 25, 3] 被广泛应用,但这些方法往往更注重空间特征,而非时间依赖关系,在处理长视频序列时性能受限。
为解决这一问题,研究人员引入了基于 Transformer 的架构 [34],提升了对长距离依赖关系的捕捉能力;同时,Cemformer [18]、M²MVIT [37] 等基于记忆的预测方法也增强了时间一致性。相关研究 [38] 仅能为单帧生成解释,未纳入时间上下文,且解释局限于简短词语或短语,缺乏捕捉跨帧动态所需的粒度,无法用于视频模型的解释。
这些视频模型仍具有 “黑箱” 特性,给自动驾驶系统的安全部署带来挑战。为解决这一局限性,我们提出了一种基于视频的可解释意图预测模型,能够提供人类可理解的解释。
2.2 可解释视频数据集
近年来,可解释性受到广泛关注,但在动作识别、长视频理解 [36, 8] 等任务中,基于视频的可解释性研究仍面临挑战。现有驾驶员意图预测数据集(如 Brain4Cars [10]、Viena²[2]、HDD [23]、AIDE [39]、DAAD [37])虽能在不同场景下提供机动动作标签,但缺乏推理或解释性标注,难以支持可解释模型的研发。
BDD-OIA [38] 提供单帧级别解释,但无法捕捉视频级完整意图预测模型所需的时空上下文;BDD-X [13] 虽能提供详细的自由格式上下文解释,但由于需要通过分类标注建立特定驾驶动作与特定可重复解释之间的精确映射关系,其无法用于构建可解释模型。为填补这一空白,我们引入了一个全新的多模态视频驾驶动作数据集,该数据集包含人类可理解的解释,旨在推动自动驾驶领域可解释性研究的发展。
2.3 基于概念的解释
在多模态和时间上下文下理解模型决策具有挑战性,这源于时间维度的增加和复杂的共享表征 [24]。概念瓶颈模型 [14, 19]、概念相关性传播 [1] 等现有研究采用固定的人类可理解概念进行决策,虽能实现可解释性,但无法对时间输入进行建模 [15]。这一局限性可能导致模型学习虚假相关性,忽略非线性特征关系。
由于概念瓶颈模型对人工标注的人类可理解概念要求极高,研究人员在 [19, 31, 27] 中提出了无标签概念瓶颈模型,借助预训练文本编码器生成概念。LaIAR [36]、HENASY [35] 等最新方法通过在视频上进行语言接地实现上下文可解释性,但由于语言模型无法捕捉驾驶场景中至关重要的位置和方向线索,这些方法在驾驶任务中效果不佳。为解决这一问题,我们提出了一个简洁的框架,通过对跨帧相关特征进行池化处理,为视频生成细粒度、可靠的解释。
3 DAAD-X 数据集
研究背景
在笔直平坦的道路上行驶时,驾驶员通常无需频繁调整方向盘或转移视线,因为此时所需做出的决策较少。但在转弯、变道、停车等机动操作过程中,驾驶员必须高度专注,根据视觉线索精确控制手部动作。在这些关键场景中,驾驶员意图预测模型虽能预测动作(如左转、减速),但无法解释为何会预测该动作,也无法判断该决策是否正确。
例如,当驾驶员接近十字路口时,若驾驶员意图预测模型预测其将左转,却未说明该决策是受交通信号灯、其他车辆移动还是行人存在等因素影响,那么该预测就仍是一个 “黑箱”。缺乏解释会导致难以判断模型的推理过程是否与人类决策逻辑一致。
为填补这一空白,驾驶员意图预测数据集必须同时包含动作和相应解释(即自车视角解释和视线解释)。通过纳入障碍物存在、道路标识、驾驶员视线行为等解释信息,我们能够研发出不仅能预测动作和意图,还能为决策提供依据的可解释模型,进而增强自动驾驶系统的可信度、安全性和可用性。

图 2:DAAD-X 数据集的驾驶视频标注统计。左图展示了不同机动动作下自车视角解释的分布情况,右图展示了不同机动动作下视线解释的分布情况。完整解释标注的详细信息请参见补充材料。建议放大图片以获得更清晰的视图。
数据集详情
为解决上述问题,我们基于 DAAD 数据集 [37] 构建了一个新的数据集,以生成人类可理解的解释。DAAD 数据集是最符合我们研究需求的基础数据集,因为它具备多模态特性,包含视线信息,且在不同天气条件、驾驶员、时间段和驾驶场景下均具有良好的适应性。
DAAD 数据集包含 7 个意图标签,每个标签对应一种特定的机动动作:直行(ST)、右转(RT)、左转(LT)、右变道(RLC)、左变道(LLC)、减速 / 停车(SS)和掉头(UT)。我们从 DAAD 数据集中选取了 1568 个视频片段,每个片段时长为 7-15 秒。借助开源工具 VIA 视频标注器 [6],我们为这些视频标注了 17 种自车视角解释和 15 种视线解释,并将这个增强后的数据集命名为可解释 DAAD 数据集(DAAD-X)。表 1 对 DAAD-X 与其他现有数据集进行了对比。
3.1 数据标注与统计
标注详情
标注过程中,标注人员需观看每个驾驶视频,并为驾驶员的机动动作标注推理依据。具体而言,标注人员需选择一个相关的视线解释和一个或多个自车视角解释,以提供上下文依据。视线解释是从 15 种预定义视线解释中选择的单属性标签,这些标签基于 Aria 视线追踪器 [30] 收集的视线坐标,用于指示驾驶员的注视方向。
与之不同,自车视角解释包含 17 种多属性标签,单个视频可对应多个解释。这些解释捕捉了场景的关键属性,为空间和时间定位提供了语义明确的线索。例如,在 “自车接近十字路口”“左侧车道前方无障碍物”“视线主要朝向右前方” 等解释中,“接近” 传递了时间语义,而 “前方无障碍物”“右前方” 则从自车视角提供了空间上下文。

DAAD-X 数据集的标注包含丰富的解释信息,涵盖视线和自车属性,可显著提升模型的可解释性。如图 2 所示,每个标注样本均包含驾驶员的机动动作、一个视线解释和多个自车视角解释。该数据集共包含 2536 条解释,但解释分布极不均衡。在视线解释中,“朝向正前方” 出现频率最高(223 次),而 “朝向左侧” 出现频率最低(10 次);在自车视角解释中,“即将左转” 出现频率最高(199 次),而 “接近十字路口且交通信号灯为绿色” 等解释则较为罕见 —— 在直行机动动作中仅出现 7 次,左转动作中出现 6 次,右转动作中仅出现 2 次。
针对这种长尾分布,我们采用分层抽样的方式确保样本分布均衡,并将数据集划分为训练集(70%)、验证集(20%)和测试集(10%)。
合理性验证
标注完成后,我们将标注结果在标注人员之间随机打乱 3 次,以验证解释的合理性。由于解释具有主观性,我们首先筛选出最明确的解释;对于模糊案例,由 10 名标注人员通过投票和讨论达成共识。通过这一过程,我们发现仅有不到 1% 的视频标注存在错误,并已对其进行修正。更多详细信息请参见补充材料。
4 视频概念瓶颈模型(VCBM)
4.1 问题表述
给定一组输入视频,每个视频包含视线视角视频 <inline_LaTeX_Formula>x_{g}<\inline_LaTeX_Formula > 和自车正前方视角视频 < inline_LaTeX_Formula>x_{f}<\inline_LaTeX_Formula>,其中 < inline_LaTeX_Formula>x_{g},x_{f}\in R^{d}<\inline_LaTeX_Formula>。对于每个视频序列,存在对应的驾驶机动动作预测结果 < inline_LaTeX_Formula>y<\inline_LaTeX_Formula > 和解释 < inline_LaTeX_Formula>e<\inline_LaTeX_Formula>,其中 < inline_LaTeX_Formula>e\in {0,1}^{17}<\inline_LaTeX_Formula > 代表 17 种解释。
假设训练数据集为 <inline_LaTeX_Formula>{(x^{i}{g},x^{i}{f},y^{i},e^{i})}_{i=1}^{T}<\inline_LaTeX_Formula>(<inline_LaTeX_Formula>T<\inline_LaTeX_Formula > 为训练样本总数),则可通过 < inline_LaTeX_Formula>y=f (g (x))<\inline_LaTeX_Formula > 进行预测。其中,<inline_LaTeX_Formula>g:R^{d}\rightarrow {R^{17}}<\inline_LaTeX_Formula > 代表瓶颈层,用于将输入视频特征映射为 17 种中间解释;<inline_LaTeX_Formula>f:R^{17}\rightarrow {R}<\inline_LaTeX_Formula > 是一个稀疏线性层,用于将中间解释映射为最终的机动动作预测标签。
本研究引入无监督聚类模块 <inline_LaTeX_Formula>m:R^{d}\rightarrow {R^{d}}<\inline_LaTeX_Formula>(详见 4.3 节),对跨帧相似特征进行聚类。最后,我们参考 [14] 的研究,采用联合瓶颈方法学习瓶颈模型 < inline_LaTeX_Formula>(\hat {f},\hat {m},\hat {g})<\inline_LaTeX_Formula>,通过最小化加权和实现优化:
<display_LaTeX_Formula>\begin{split}\resizebox{248.42812pt}{}{\(\hat{f},\hat{m},\hat{g}=\arg\min_{f,m,g}\Biggl(\sum_{i}\left[L_{Y}\bigl(f(g(m(x^{(i)}))),y^{(i)}\bigr)+\sum_{j}\lambda L_{C_{j}}\bigl(g(m(x^{(i)})),e_{j}^{(i)}\bigr)\right]\Biggr)\)}\end{split}<\display_LaTeX_Formula>
(1)
其中,<inline_LaTeX_Formula>L_{y}<\inline_LaTeX_Formula > 代表多分类交叉熵损失,<inline_LaTeX_Formula>L_{C_{j}}<\inline_LaTeX_Formula > 代表每种解释 < inline_LaTeX_Formula>j\in {1,17}<\inline_LaTeX_Formula > 的多标签聚合二元交叉熵损失,<inline_LaTeX_Formula>\lambda<\inline_LaTeX_Formula > 为权重因子。
4.2 模型架构
图 3:所提 VCBM 模型的整体架构。双视频编码器首先为视线视角和自车视角输入序列视频对生成时空特征(管单元嵌入)。这些管单元沿通道维度拼接后,输入到所提出的可学习令牌合并模块,基于复合距离生成 <inline_LaTeX_Formula>K<\inline_LaTeX_Formula > 个聚类中心。随后,这些聚类结果被输入到局部化概念瓶颈中,对解释进行解纠缠处理并预测机动动作标签,同时生成一个或多个解释以证明机动动作决策的合理性。
如图 3 所示,VCBM 模型由双视频编码器、新颖的可学习令牌合并(LTM)模块和局部化概念瓶颈模型(LCBM)模块组成。LTM 和 LCBM 模块能够有效解释车内视线视频和车外正前方视频数据。VCBM 模型的核心功能是预测驾驶员的预期机动动作,并提供人类可理解的解释来说明选择该动作的原因,从而提升驾驶员意图预测任务的可解释性。
视频编码器
我们的视频编码器架构基于 [34] 的研究。对于输入视频序列(视线视频 < inline_LaTeX_Formula>x_{g}^{i}<\inline_LaTeX_Formula > 和自车正前方视频 < inline_LaTeX_Formula>x_{f}^{i}<\inline_LaTeX_Formula>),我们将其分别输入到两个分支中,提取各自的特征嵌入 < inline_LaTeX_Formula>z_{i}=(z_{g},z_{f})\in R^{B\times N\times Dim}<\inline_LaTeX_Formula>,其中 < inline_LaTeX_Formula>B<\inline_LaTeX_Formula>、<inline_LaTeX_Formula>N<\inline_LaTeX_Formula>、<inline_LaTeX_Formula>Dim<\inline_LaTeX_Formula > 分别代表批量大小、令牌数量和特征表征维度。
为在保持时间一致性 [40] 的同时保留空间定位信息,我们将这些特征嵌入沿通道维度拼接,得到 < inline_LaTeX_Formula>z^{\prime}{i}<\inline_LaTeX_Formula>。随后,将 < inline_LaTeX_Formula>z^{\prime}{i}<\inline_LaTeX_Formula > 输入到可学习令牌合并(LTM)和局部化上下文瓶颈模型(LCBM)模块中,得到最终预测结果,具体细节将在后续章节中详细阐述。
4.3 可学习令牌合并
为确保 LCBM 模块能够捕捉跨帧局部特征,我们引入了 LTM 模块。该模块将语义相似的特征分组为数量更少的代表性令牌,然后将这些令牌输入到 LCBM 模块中。
首先,在 LTM 模块中对编码器输出的多视角拼接特征表征 <inline_LaTeX_Formula>z^{{}^{\prime}}{i}<\inline_LaTeX_Formula > 进行无监督聚类。将特征与 < inline_LaTeX_Formula>K<\inline_LaTeX_Formula > 个可学习聚类中心 < inline_LaTeX_Formula>z{c_{j}}<\inline_LaTeX_Formula>(<inline_LaTeX_Formula>(i,j)<\inline_LaTeX_Formula > 代表令牌位置)进行比较,其中 < inline_LaTeX_Formula>K<<N<\inline_LaTeX_Formula>,以确保解释能够分配给紧凑的合并特征集。
特征令牌与聚类中心之间的相似度通过余弦相似度计算,公式如下:
<display_LaTeX_Formula>d_{feat}^{(i,j)}=1-\frac{z^{\prime}{i}\cdot z{c_{j}}}{\lVert z^{\prime}{i}\rVert\lVert z{c_{j}}\rVert},\quad\forall i\in{1,\dots,N},\quad\forall j\in{1,\dots,K}<\display_LaTeX_Formula>
(2)
我们在图 3 中引入了复合相似度模块,用于整合和优化相似度度量。该模块通过强化空间和时间一致性来提升聚类效果。我们额外计算了空间距离 <inline_LaTeX_Formula>\tilde {d}{spatial}^{(i,j)}<\inline_LaTeX_Formula > 和时间距离 < inline_LaTeX_Formula>\tilde {d}{temporal}^{(i,j)}<\inline_LaTeX_Formula>:
<display_LaTeX_Formula>\tilde{d}{spatial}^{(i,j)}=\frac{d{spatial}^{(i,j)}}{S_{\max}},\quad d_{spatial}^{(i,j)}=\sqrt{(x_{i}-x_{c_{j}})^{2}+(y_{i}-y_{c_{j}})^{2}}<\display_LaTeX_Formula>
(3)
<display_LaTeX_Formula>\tilde{d}{temporal}^{(i,j)}=\frac{d{temporal}^{(i,j)}}{T_{\max}},\quad d_{temporal}^{(i,j)}=|t_{i}-t_{c_{j}}|<\display_LaTeX_Formula>
(4)
用于聚类的总复合距离计算公式为:
<display_LaTeX_Formula>d_{composite}^{(i,j)}=\alpha,d_{feat}^{(i,j)}+\beta,\tilde{d}{spatial}^{(i,j)}+\gamma,\tilde{d}{temporal}^{(i,j)}<\display_LaTeX_Formula>
(5)
其中,<inline_LaTeX_Formula>x_{c},y_{c},t_{c}<\inline_LaTeX_Formula > 分别代表可学习聚类中心在空间和时间维度上的位置,<inline_LaTeX_Formula>\alpha,\beta,\gamma<\inline_LaTeX_Formula > 代表距离的归一化权重。
与硬聚类 [7, 28] 不同,我们采用软聚类方法:通过对负复合距离进行 softmax 运算,为每个令牌 < inline_LaTeX_Formula>z_{i}<\inline_LaTeX_Formula > 分配软标签 < inline_LaTeX_Formula>w_{ij}<\inline_LaTeX_Formula>,公式如下:
<display_LaTeX_Formula>w_{ij}=\frac{exp(-d^{(i,j)}{composite})}{\sum{j=1}^{K}{exp(-d^{(i,j)}_{composite})}}<\display_LaTeX_Formula>
(6)
更新后的聚类中心通过令牌嵌入的加权和计算得出:
<display_LaTeX_Formula>\tilde{z}{c{j}}=\frac{\sum_{i=1}^{N}{w_{ij}z_{i}}}{\sum_{i=1}^{N}{w_{ij}}}<\display_LaTeX_Formula>
(7)
通过将相似特征合并为紧凑的令牌表征,该方法在减少视频嵌入冗余的同时,确保保留时空相关特征。这些合并后的令牌表征被输入到 LCBM 模块中,使 LCBM 能够生成细粒度解释,同时保持空间和时间一致性。
4.4 局部化上下文瓶颈模型

图 4:VCBM 模型对跨帧相关特征 <inline_LaTeX_Formula>(z_{c_{j}})<\inline_LaTeX_Formula > 进行合并,并为其分配解释。蓝色代表合并后的交通特征,橙色代表合并后的交通信号灯特征,箭头粗细代表预测置信度。
LCBM 模块通过将高维编码向量映射到人类可理解的低维空间,进一步优化 LTM 模块输出的表征。传统概念瓶颈模型方法依赖全局特征嵌入或全局平均池化,这会丢失细粒度的空间和时间细节。与之不同,LCBM 方法通过将所有池化后的令牌表征输入到瓶颈模块(<inline_LaTeX_Formula>g (z_{c})<\inline_LaTeX_Formula>)中,保留了这些细节,如图 4 所示。
我们并未在瓶颈层之前直接对特征进行平均处理,而是引入了延迟平均策略,使每个合并后的令牌在解释过程中都能保留其独立贡献。瓶颈模块中的每个全连接(FC)层对应一种特定解释,并生成一个单一对数几率(logit),代表该解释的置信度。这一设计确保每个全连接层都能处理所有令牌,从而实现更稳健、更具可解释性的解释分配。
通过保留细粒度的时空细节,LCBM 模块增强了激活图,使驾驶员意图预测模型能够生成更精确、人类可理解的解释。
5 实验
5.1 实现细节
在实验中,我们使用了在 ImageNet RGB 图像上预训练的 I3D 模型 [4],以及在 Kinetics-400 数据集上预训练的 VideoMAE 模型 [32](采用 ViT-B/16 骨干网络 [5])和 MViTv2-B 模型 [17]。有关数据增强、训练参数和评估指标的更多详细信息,请参见补充材料。
5.2 结果
表 2:DAAD-X 数据集上的评估结果:带有瓶颈层(wB)和不带瓶颈层(woB)的基线模型对比。其中,LTM 代表可学习令牌合并。
模型 | 动作预测 | 自车视角解释预测 | ||||
---|---|---|---|---|---|---|
准确率(Acc) | F₁分数 | 准确率(Acc) | F₁分数 | 宏 F₁(F₁(mac)) | 微 F₁(F₁(mic)) | |
I3D woB[4] | 74.78 | 74.21 | – | – | – | – |
VideoMAE woB[34] | 72.5 | 71.81 | – | – | – | – |
MViTv2 woB[17] | 64.03 | 63.98 | – | – | – | – |
I3D wB[4] | 74.09 | 73.47 | 25.26 | 36.73 | 18.53 | 43.49 |
VideoMAE wB[34] | 67.01 | 66.48 | 24.21 | 38.24 | 23.77 | 41.53 |
MViTv2 wB[17] | 63.29 | 62.47 | 25.35 | 37.1 | 24.3 | 42.1 |
I3D + LTM wB(本文) | 73.21 | 72.2 | 28.31 | 39.43 | 24.1 | 44.06 |
MViTV2 + LTM wB(本文) | 69.73 | 69.15 | 31.22 | 43.86 | 29.17 | 49.11 |
我们将所提方法与三种骨干架构进行了对比:基于 CNN 的 I3D、基于 Transformer 的 VideoMAE 和 MViTv2。表 2 展示了基线模型以及带有和不带有瓶颈层的骨干模型的性能。结果表明,在使用瓶颈层进行解释预测时,基于 Transformer 的 MViTv2 基线模型性能优于基于 CNN 的 I3D 基线模型。尽管 CNN 在空间特征提取方面表现出色,但基于视频的解释任务需要对跨帧时间信息有较强的理解能力,因此 Transformer 模型更具优势。
5.3 见解与消融实验
在本节中,我们将进一步分析令牌合并的作用、视线模态在 VCBM 模型中的重要性以及时间线索的影响。
表 3:令牌聚合的重要性。对比了令牌合并(使用编码器的所有令牌)与使用 CLS 令牌生成解释的效果。
策略 | 模型 | 动作预测 | 自车视角解释预测 | ||||
---|---|---|---|---|---|---|---|
准确率(Acc) | F₁分数 | 准确率(Acc) | F₁分数 | 宏 F₁(F₁(mac)) | 微 F₁(F₁(mic)) | ||
CLS 令牌汇总 | I3D woB | 74.38 | 74.1 | – | – | – | – |
I3D wB | 73.73 | 72.25 | 23.15 | 33.7 | 16.9 | 41.95 | |
全令牌聚合 | I3D woB | 74.78 | 74.21 | – | – | – | – |
I3D woB | 73.21 | 72.2 | 28.31 | 39.43 | 24.1 | 44.06 |
5.3.1 LTM 与 LCBM 的作用
表 4:聚类数量的影响。聚类数量较少的瓶颈层会学习到更具全局性的表征;而聚类数量进一步增加会因聚类中心存在噪声导致性能下降。
模型 | 聚类数量 | 动作预测 | 自车视角解释预测 | ||||
---|---|---|---|---|---|---|---|
准确率(Acc) | F₁分数 | 准确率(Acc) | F₁分数 | 宏 F₁(F₁(mac)) | 微 F₁(F₁(mic)) | ||
I3D + LTM wB | 1 | 70.78 | 70.47 | 24.64 | 34.47 | 16.67 | 42.29 |
I3D + LTM wB | 3 | 71.78 | 71.44 | 25 | 38.46 | 22.85 | 43.87 |
I3D + LTM wB | 5 | 73.21 | 72.2 | 28.31 | 39.43 | 24.1 | 44.06 |
I3D + LTM wB | 7 | 74.28 | 74.03 | 24.64 | 34.9 | 18.44 | 41.01 |
I3D + LTM wB | 10 | 70.35 | 69.64 | 23.92 | 33.28 | 16.09 | 41.2 |
MViTV2 + LTM wB(本文) | 5 | 69.73 | 69.15 | 31.22 | 43.86 | 29.17 | 49.11 |
MViTV2 + LTM wB(本文) | 10 | 65 | 64.53 | 30 | 43.51 | 27.11 | 47.11 |
表 4 分析了 LTM 模块(见图 3)中聚类数量的变化对所提方法的动作预测和解释预测性能的影响。使用单个聚类类似于在 Transformer 中使用 CLS 令牌,即将所有令牌聚合为一个全局表征。随着聚类数量的增加,每个聚类会对应令牌中的某些相似特征,但聚类数量过多会导致模型学习额外的噪声模式,从而降低预测性能。
LCBM 模块旨在基于 LTM 模块输出的所有局部聚合令牌计算解释,而非依赖单一的全局 CLS 令牌。这种方法通过保留特征组的上下文完整性,增强了解释的合理性,使模型更具可解释性(如表 3 所示)。表 5 中的组件级消融实验表明,引入 LCBM 模块可同时提升解释预测和动作预测的性能指标。通过关注所有输入令牌,LCBM 能够有效保留细粒度细节,生成更精确的瓶颈表征。此外,引入 LTM 模块可进一步提升解释预测性能,因为该模块能够提取有意义的合并令牌。然而,令牌合并过程中的平均操作会降低单个特征的粒度,导致动作预测准确率略有下降。
表 5:组件级消融实验。所提模块(LTM 和 LCBM)在 I3D 架构上的重要性验证。
组件 | 动作预测 | 自车视角解释预测 | |||||
---|---|---|---|---|---|---|---|
LTM | LCBM | 准确率(Acc) | F₁分数 | 准确率(Acc) | F₁分数 | 宏 F₁(F₁(mac)) | 微 F₁(F₁(mic)) |
✗ | ✗ | 68.1 | 67.44 | 11.22 | 21.44 | 9.37 | 22.51 |
✓ | ✗ | 72.8 | 72.15 | 26.03 | 35.6 | 19.15 | 44.1 |
✗ | ✓ | 74.09 | 73.47 | 25.26 | 36.73 | 18.53 | 43.49 |
✓ | ✓ | 73.21 | 72.2 | 28.31 | 39.43 | 24.1 | 44.06 |
5.3.2 视线模态的重要性

图 5:视线输入的不同变体。对驾驶员视角视频进行如下处理,以确定在不影响空间特征的前提下最佳的视线表征方式。实验表明,视线裁剪变体(半径 <inline_LaTeX_Formula>R=350<\inline_LaTeX_Formula > 像素)的定量结果最佳。
(从左到右依次为:无视线输入、视线裁剪输入、视线叠加输入)

图 6:所提方法的 GradCAM 可视化结果。在 <inline_LaTeX_Formula>t=1<\inline_LaTeX_Formula > 时刻(初始时刻),激活区域较为分散;随着时间推移至 < inline_LaTeX_Formula>t=T<\inline_LaTeX_Formula > 时刻(最终时刻),类激活映射(CAM)逐渐优化并聚焦于重要目标。这一过程与人类决策过程相似,即决策是随时间逐步形成的。
(从上到下依次为:自车正前方视角 GradCAM、原始图像、驾驶员视角 GradCAM;从左到右依次为:MViTv2 模型、I3D+M 模型、MViTv2 模型、I3D+M 模型;机动动作:减速;自车视角解释:前方车辆减速、偏离原路线以避开低速车辆 / 障碍物并继续行驶)
我们通过三种设置分析了视线模态对解释预测的影响:无视线输入、视线叠加输入和视线裁剪区域输入(如图 5 所示)。表 7 展示了不同视线变体的识别准确率。实验结果表明,无视线输入时,动作预测和解释预测性能均较低;将视线叠加到驾驶员视角视频中虽能引入视线信息,但会给图像带来噪声,破坏细节信息。
为解决这一问题,我们从驾驶员视角视频中裁剪出以视线真值为中心的圆形区域,并测试了不同直径(单位:像素)的裁剪效果。表 7 显示,当裁剪半径 <inline_LaTeX_Formula>R=350<\inline_LaTeX_Formula > 像素时,解释预测性能达到最优;但裁剪区域过大时,相关视线信息的浓度会降低,导致解释预测性能下降。
5.3.3 解释与动作分类之间的权衡
我们将解释分类与动作预测进行联合训练,以使其与人类推理逻辑保持一致。表 6 显示,通过在公式(1)中引入缩放参数 <inline_LaTeX_Formula>\lambda<\inline_LaTeX_Formula > 来添加辅助解释损失,可同时提升解释预测和动作预测的准确率。然而,若该权重过大,可能会对动作分类性能产生轻微影响。
表 6:解释分类的权衡。对解释分类的重视程度增加会导致动作预测性能下降。
缩放因子(<inline_LaTeX_Formula>\lambda<\inline_LaTeX_Formula>) | 动作预测 | 自车视角解释预测 | ||||
---|---|---|---|---|---|---|
准确率(Acc) | F₁分数 | 准确率(Acc) | F₁分数 | 宏 F₁(F₁(mac)) | 微 F₁(F₁(mic)) | |
0 | 72.14 | 71.82 | 0 | 14.56 | 8 | 8.65 |
0.01 | 71.07 | 69.94 | 0.71 | 9.87 | 3.3 | 12.95 |
0.1 | 74.28 | 73.43 | 5.71 | 17.36 | 10.09 | 14.48 |
0.5 | 73.21 | 72.2 | 28.31 | 39.43 | 24.1 | 44.06 |
1 | 70.35 | 69.23 | 30 | 40.02 | 22.58 | 46.4 |
5.3.4 时间线索的影响

图 7:时间线索的影响。随着帧重排程度的增加,MViTv2 模型的动作预测和解释预测准确率相较于 I3D 模型显著下降。值得注意的是,解释预测准确率的下降幅度大于动作预测准确率,这表明时间线索对生成有意义的解释至关重要。
(左图为 I3D 模型:纵轴为准确率,横轴为重排程度;右图为 MViTv2 模型:纵轴为准确率,横轴为重排程度)
图 7 展示了时间线索对 CNN 和 Transformer 模型的动作预测与解释预测性能的影响。有趣的是,Transformer 模型的动作预测准确率低于 CNN 模型,这可能源于两个因素:(1)CNN 更依赖空间特征,仅处理有限的时间上下文,这表明驾驶员意图预测任务可在帧级别完成,但需以牺牲可解释性为代价;(2)如 4 节所述,Transformer 模型通过随机重排进行更强的正则化,以避免从噪声数据中学习虚假相关性,而这种随机重排会破坏时间顺序,影响 Transformer 模型性能,而 CNN 模型对时间信息依赖较低,因此不受影响。图 7 中的 “重排程度 < inline_LaTeX_Formula>s<\inline_LaTeX_Formula>” 代表帧重排的严重程度。
设 <inline_LaTeX_Formula>T<\inline_LaTeX_Formula > 为视频的总帧数,首先将其平均分为 16 个片段,每个片段包含 < inline_LaTeX_Formula>\ell=\frac {T}{16}<\inline_LaTeX_Formula > 帧。根据重排程度参数 < inline_LaTeX_Formula>s<\inline_LaTeX_Formula>,将每 < inline_LaTeX_Formula>s<\inline_LaTeX_Formula > 个连续片段合并,形成 < inline_LaTeX_Formula>M=\frac {16}{s}<\inline_LaTeX_Formula > 个合并片段。从每个合并片段中均匀采样 < inline_LaTeX_Formula>s<\inline_LaTeX_Formula > 帧:
<display_LaTeX_Formula>F_{i}=\left{f_{i,1},f_{i,2},\dots,f_{i,s}\right},\quad i=1,\dots,M<\display_LaTeX_Formula>
其中,每个采样帧 <inline_LaTeX_Formula>f_{i,j}<\inline_LaTeX_Formula > 从第 < inline_LaTeX_Formula>i<\inline_LaTeX_Formula > 个合并片段中均匀选取。采样帧总数满足:
<display_LaTeX_Formula>\sum_{i=1}^{M}|F_{i}|=16.<\display_LaTeX_Formula>
这一结果表明,我们的解释标注受时间依赖关系的影响。
表 7:视线模态输入变体。在驾驶员意图预测任务中,使用视线裁剪区域输入优于传统的视线叠加输入。
输入变体 | 动作预测 | 自车视角解释预测 | ||||
---|---|---|---|---|---|---|
准确率(Acc) | F₁分数 | 准确率(Acc) | F₁分数 | 宏 F₁(F₁(mac)) | 微 F₁(F₁(mic)) | |
无视线 | 68.11 | 67.94 | 8.77 | 17.52 | 9.37 | 22.51 |
视线叠加 | 71.57 | 70.57 | 14.03 | 22.6 | 11.86 | 28.55 |
裁剪半径 50 像素 | 67.85 | 67.51 | 14.28 | 24.24 | 11.34 | 28.8 |
裁剪半径 150 像素 | 70.21 | 69.2 | 20.63 | 28.46 | 15.22 | 34.18 |
裁剪半径 250 像素 | 72.63 | 72.42 | 23.74 | 33.36 | 17.59 | 40.13 |
裁剪半径 350 像素 | 74.09 | 73.47 | 26.42 | 36.73 | 18.53 | 43.49 |
裁剪半径 450 像素 | 74.64 | 73.74 | 25.26 | 36.01 | 19.18 | 43.46 |
裁剪半径 550 像素 | 74.28 | 73.75 | 24.64 | 35.67 | 17.39 | 43.32 |
5.4 定性分析
5.4.1 GradCAM 可视化
如图 6 所示,车辆当前的机动动作为 “减速”,中间输出结果提供了自车视角解释。这表明 LTM 和 LCBM 模块能够有效将激活区域聚焦于与预测解释相符的相关特征上。相比之下,未采用延迟平均和 LTM 模块的基线概念瓶颈模型,其激活区域更分散、更具全局性,可解释性较差。
5.4.2 标签锚定多标签 t-SNE 可视化
在特征空间中对解释进行可视化,对于理解驾驶员意图预测模型在机动动作预测过程中学到的信息至关重要。在处理多标签解释时,t-SNE 等技术有助于解释潜在空间,并揭示不同解释之间的关系。然而,t-SNE 无法直接适用于多标签分类任务,因此我们将解释作为潜在空间中的锚点引入。这种方法具有两个关键优势:(1)锚点能够突出不同解释之间的相关程度;(2)单个视频特征会与相关锚点对齐并靠近,从而使所学特征的表征更具可解释性。
从形式上看,设 <inline_LaTeX_Formula>\mathbf {z^{\prime}}{i}\in\mathbb {R}^{d}<\inline_LaTeX_Formula > 为第 < inline_LaTeX_Formula>i<\inline_LaTeX_Formula > 个样本的骨干网络特征向量(<inline_LaTeX_Formula>i=1,\ldots,T<\inline_LaTeX_Formula>)。对于每种解释 < inline_LaTeX_Formula>k<\inline_LaTeX_Formula>,定义掩码指示器 < inline_LaTeX_Formula>s{i}^{(k)}<\inline_LaTeX_Formula>:
<display_LaTeX_Formula>s_{i}^{(k)}=\begin {cases} 1,&\text {若样本 } i\text { 的 } k\text { 类被激活},\ 0,&\text {否则}.\end {cases}<\display_LaTeX_Formula>
解释 <inline_LaTeX_Formula>k<\inline_LaTeX_Formula > 的聚合特征表征 < inline_LaTeX_Formula>\bar {\mathbf {z}}_{k}<\inline_LaTeX_Formula > 通过对特征应用掩码,并对掩码激活的样本进行平均计算得出:
<display_LaTeX_Formula>\bar{\mathbf{z}}{k}=\frac{\sum{i=1}^{T}s_{i}^{(k)}\mathbf{z^{\prime}}{i}}{\sum{i=1}^{T}s_{i}^{(k)}},<\display_LaTeX_Formula>
该聚合特征 <inline_LaTeX_Formula>\bar {\mathbf {z}}_{k}<\inline_LaTeX_Formula > 在二维 t-SNE 空间中作为解释 < inline_LaTeX_Formula>k<\inline_LaTeX_Formula > 的锚点,使特征空间更具可解释性,能够揭示解释之间所学的因果关系程度。

图 8:标签锚定多标签 t-SNE 可视化。彩色圆点代表单个视频特征的聚类。左图:基线模型的表征空间解纠缠效果较差;右图:所提方法的解释符号分离效果更佳,与视频的因果相关性更强。方形标记位于中心,代表所有视频中常见的特征;六边形标记代表在掉头场景中学到的解释,因为掉头动作通常伴随右转和右变道动作。
(左图为基线模型:纵轴为特征维度,横轴为特征维度,标注有不同机动动作类别和解释标签;右图为所提模型:纵轴为特征维度,横轴为特征维度,标注有不同机动动作类别和自车视角解释)
图 8 展示了 17 个解释锚点,每个锚点用不同形状标记。该可视化结果表明,语义相关的解释倾向于形成聚类,而单个视频特征(用彩色点表示)则位于其对应解释锚点附近。例如,若某个视频同时包含 “交通信号灯为绿色” 和 “即将左转” 两种解释,其特征表征将位于这两个对应锚点附近,这体现了模型所学的关联关系。
局限性与未来展望
我们提出的方法在生成高级别解释的同时,能够保留可靠的特征属性。然而,GradCAM 激活区域主要集中在正前方方向,这是因为我们假设只有当重要目标同时出现在两种视角中时(即驾驶员的视线能够引导模型关注正前方视角中的目标),才会对其进行考虑。因此,令牌合并依赖于视频帧至少部分对齐的假设。
未来研究的一个有趣方向是,探索通过单应性等技术在令牌合并前显式对齐两种视角,分析其对模型性能的影响。
6 结论
本研究为驾驶机动动作预测中的概念可解释性引入了一种新范式。我们构建了一个全面的多模态数据集,该数据集包含人类可理解的解释,有助于在自动驾驶系统中构建可解释模型。
通过对现有架构的分析,我们发现 Transformer 模型由于其固有的时间偏向性,在生成解释方面表现更出色。基于这一发现,我们提出了 VCBM 模型,该模型通过合并时空特征来预测局部化解释,并通过事后特征归因方法对这些解释进行可靠表征。此外,我们提出的特征级可视化方法能够有效阐明解释之间的因果相关性,从而提升驾驶员意图预测系统的整体透明度和可靠性。