摘要

心理健康障碍仍是全球导致残疾的主要原因之一,但抑郁症、焦虑症和创伤后应激障碍(PTSD)等疾病常因主观评估、临床资源有限、病耻感及认知度低等因素被漏诊或误诊。在初级医疗场景中,研究表明医疗服务提供者对抑郁症或焦虑症的误诊率超过 60%,这凸显出对可扩展、易获取且情境感知的诊断工具的迫切需求,此类工具可支持疾病的早期检测与干预。

本研究利用包含 553 份现实世界半结构化访谈的独特数据集,评估机器学习模型在心理健康筛查中的有效性。每份访谈均配有重度抑郁发作(MDE)、焦虑症和创伤后应激障碍的真实诊断结果。我们对多种模型类别进行了基准测试,包括基于 GPT-4.1 Mini 和 Meta-LLaMA 的零样本提示模型,以及采用低秩适应(LoRA)微调的 RoBERTa 模型。

结果显示,我们的模型在各诊断类别中的准确率均超过 80%,其中创伤后应激障碍的检测表现尤为突出(准确率高达 89%,召回率达 98%)。研究还发现,使用更短、更聚焦的情境片段能提高召回率,这表明聚焦式叙事线索可增强检测敏感性。低秩适应微调被证明兼具效率与有效性,低秩配置(如秩 8 和秩 16)在各评估指标中均保持了具有竞争力的性能。

研究结果表明,基于大型语言模型(LLM)的模型相比传统自评筛查工具可实现显著改进,为低门槛、人工智能驱动的早期诊断提供了路径。本研究为将机器学习整合到现实世界临床工作流程奠定了基础,尤其适用于资源匮乏或病耻感强、及时获取心理健康服务难度较大的环境。

代码链接 ——https://anonymous.4open.science/r/AAAI2026˙Depression1-E152/

1. 引言

心理健康障碍占全球十大致残原因中的四种(Alhamed、Ive、Specia,2024;Ben-Zion 等,2025;世界卫生组织,2001)。受此类疾病影响的人群,其不良健康行为(包括吸烟、物质滥用、缺乏运动和不良饮食)的发生率远高于常人,这些行为会增加患慢性躯体疾病的风险,并导致早逝(Goodell 等,2011;Laursen、Nordentoft、Mortensen,2014)。

尽管心理健康障碍造成了全球性负担,但这类疾病仍存在漏诊、治疗不足和病耻感强的问题,在资源有限或获取服务障碍较大的场景中尤为突出(世界卫生组织,2001)。治疗缺口较大的一个主要原因在于传统诊断工具存在局限性。心理健康评估依赖主观测量方式,如结构化访谈和自评问卷(Tennyson、Kemp、Rao,2016)。这些工具虽具成本效益且可扩展,但易受社会期望偏差、回忆不准确以及症状互操作性有限等问题影响,在认知受损或存在病耻感的人群中表现尤为明显(Haberer、Trabin、Klinkman,2013)。

此外,抑郁症、焦虑症和创伤后应激障碍等疾病常存在高共病率,症状相互重叠,实际诊断中难以区分,这使得及时准确诊断变得更为复杂。这种诊断模糊性,再加上临床资源有限,导致无论是高收入还是低收入地区,都普遍存在误诊和识别不足的情况(Auxéméry,2018)。

这些挑战凸显了对可扩展、主动式且情境感知的筛查工具的迫切需求,此类工具需能更早、更准确地识别高风险人群(Tennyson、Kemp、Rao,2016)。为应对这些需求,支持向量机(SVM)、随机森林等传统机器学习方法(Saidi、Othman、Saoud,2020;Cacheda 等,2019;Islam 等,2018)早已被广泛研究和应用于心理健康障碍检测,它们通过利用结构化输入以及从语言、行为或生理信号中提取的手工特征来实现检测。这些方法虽展现出一定潜力,但由于表达能力有限,往往难以达到理想性能(Van Der Donckt 等,2023)。

深度学习的后续发展催生了端到端模型,这类模型可直接从原始文本或语音数据中学习表征,性能和灵活性均有提升(Su 等,2020)。然而,这些模型通常需要大量带标签数据集,可解释性较差,且对领域迁移较为敏感(Ramasamy Ramamurthy、Roy,2018)。大型语言模型(LLM)的最新进展提供了一个极具吸引力的新方向。通过分析自然语言输入(如访谈记录和自然对话),大型语言模型有望识别抑郁症、焦虑症和其他心理健康障碍的早期迹象(Xu 等,2024)。这类模型无需临床基础设施支持,可部署在低接触、面向用户的环境中,从而实现广泛应用和持续监测。

本研究朝着这一方向迈出了一步,核心问题是:能否借助大型语言模型丰富的先验知识和强大的文本理解能力,从自然对话中检测心理健康障碍的早期迹象,而无需依赖专家构建的特征或临床标注?

新型对话数据集

大型语言模型适配方法

预测任务:多个下游诊断任务

基于自动记录临床访谈的逐字记录文本。

方法 1:对大型语言模型进行直接提示,使用 GPT-4.1 Mini 和 Meta-LLaMA-3-8B-Instruct 模型。提示基于五种心理状态:日常活动、困难经历、情绪调节、近期负面事件、近期正面事件。

方法 2:参数高效微调(PEFT)增强的解码器模型。通过低秩适应(LoRA)方法对 Meta-LLaMA-3-8B-Instruct 模型进行微调,用于重度抑郁发作(MDE)诊断。

方法 3:以编码器模型为基础

A. 原始编码器分类器(带分类头的 RoBERTa 嵌入;搭配多层感知机(MLP)、逻辑回归或极端梯度提升(XGBoost))

B. 参数高效微调(PEFT)增强的编码器分类器(端到端 RoBERTa,搭配多层感知机分类头,通过低秩适应(LoRA)进行微调)

创伤后应激障碍(PTSD)、焦虑症

临床专家提供的真实临床诊断结果。

图 1:数据集、大型语言模型适配方法及预测目标概述

以往研究多基于自评调查或社交媒体数据,且仅针对单一心理健康障碍(Bucur,2024;Zhu 等,2024;Sarabadani 等,2025;Bartal 等,2024),而本研究利用的数据集则包含现实世界中的半结构化精神科访谈,且每份访谈均配有同期的真实临床诊断结果。这种场景更能反映真实临床对话的细微差别和变异性。

我们将该任务定义为多标签文本分类任务:给定一份访谈记录,模型需预测是否存在(1)重度抑郁发作(MDE)、(2)创伤后应激障碍(PTSD)和(3)焦虑症。

我们对基于编码器和基于解码器的两类语言模型进行了评估,并可通过低秩适应(LoRA)等参数高效微调(PEFT)适配器进行增强。基于解码器的模型(如 GPT-4.1、Meta-LLaMA)在零样本场景下进行评估,而基于编码器的模型则可选择结合或不结合低秩适应(LoRA)增强,通过基于嵌入的分类器进行微调。这种设计能够在真实数据和部署约束下,对通用诊断策略与定制化诊断策略进行严格的横向比较。我们的建模流程概述如图 1 所示。

2. 相关研究

以往的心理健康评估研究在很大程度上依赖于标准化自评工具,这类工具专为评估特定精神疾病而设计。例如,患者健康问卷(PHQ-9)是基于《精神疾病诊断与统计手册》第四版(DSM-IV)标准开发的广泛使用的重度抑郁症自评量表(Kroenke、Spitzer、Williams,2001);广泛性焦虑障碍量表(GAD-7)是简短且经临床验证的工具,用于评估广泛性焦虑障碍的严重程度(Spitzer 等,2006);《精神疾病诊断与统计手册》第五版(DSM-5)创伤后应激障碍检查表(PCL-5)则依据 DSM-5 标准,从四个诊断维度捕捉创伤后应激障碍的核心症状(Blevins 等,2015)。

这些工具虽具成本效益且易于实施,但存在若干重要局限性。首先,尽管有越来越多的证据表明抑郁症、焦虑症和创伤后应激障碍等疾病在临床人群中常同时存在(Lai 等,2019;Hawkins,2009;DeVylder、Burnette、Yang,2014),但每种工具通常每次仅针对一种疾病进行评估。其次,由于这些工具完全依赖自评数据,易受社会期望偏差、回忆不准确和自我认知有限等因素影响,在脆弱人群或认知受损人群中表现尤为明显。最后,在资源有限的场景或突发公共卫生事件(如疫情)期间,获取训练有素的专业人员服务或开展结构化筛查的渠道可能会严重受限,导致许多人被漏诊或误诊(Kumar 等,2025;Alhalaseh 等,2021)。

例如,一项包含 157 项研究的综合分析发现,在初级医疗中,仅有三分之一的轻度抑郁症患者能被正确识别(Mitchell、Rao、Vaze,2011);另一项包含 41 项高质量研究、覆盖 5 万多名患者的元分析显示,全科医生对抑郁症的正确识别率仅为 47.3%。值得注意的是,这些研究还发现,假阳性病例往往多于真阳性病例,且有相当一部分病例被完全漏诊(Mitchell、Vaze、Rao,2009)。

为克服自评工具的局限性,近年来有研究探索利用机器学习(ML)和自然语言处理(NLP)方法,从文本输入、问卷和社交数据等多种数据源中自动检测心理健康障碍(Wshah 等,2019;Le Glaz 等,2021;Chiong 等,2021;Maharjan 等,2025)。例如,Priya 等人的研究基于问卷回答,应用机器学习算法将人群按焦虑症、抑郁症和压力的严重程度分为五个等级。其中,朴素贝叶斯算法准确率最高,而随机森林则被认为是整体性能最佳的模型(Priya、Garg、Tigga,2020;Nemesure 等,2021)。另有研究证明,利用结构化评估、基于语言的情绪调节特征和治疗选择模型,机器学习方法可用于创伤后应激障碍的识别(Christ 等,2021;Held 等,2022;Sawalha 等,2022;Vanlalawmpuia、Lalhmingliana,2020)。尽管这些方向前景良好,但数字心理健康解决方案的实施仍面临重大挑战,尤其是在评估严谨性和实际有效性方面(Balcombe、De Leo,2021)。

传统机器学习方法通常需要大量特定任务训练数据和手工设计特征,而大型语言模型(LLM)的运作模式则完全不同。基于 Transformer 架构和自注意力机制(Vaswani 等,2017),大型语言模型在海量文本语料库上进行预训练,仅通过文本提示即可实现零样本或少样本推断(Wang、Pang、Lin,2023;Hasan 等,2024)。这种转变使大型语言模型能够直接从自由形式的自然语言中理解丰富的情境线索,无需结构化输入格式、特定疾病问卷或带标注训练数据(Zhu 等,2024;Srivastava,2024;Zhu 等,2025)。

近期多项研究证明了大型语言模型在临床心理健康应用中的潜力。例如,研究显示 GPT-4 可从半结构化临床访谈中推断社交焦虑症状的严重程度,与经过验证的自评工具的相关系数达 0.79(Ohse 等,2024);在抑郁症诊断方面,MDD-LLM(70B 参数版本)的准确率达 0.8378,受试者工作特征曲线下面积(AUROC)达 0.8919,显著优于传统机器学习和深度学习方法(Sha 等,2025);另一项关于创伤后应激障碍检测的研究,采用基于 DSM-5 标准的少样本提示方法,实现了 0.737 的 AUROC,且性能会因症状严重程度和共病抑郁症情况而有所不同(Chen 等,2025)。这些发现凸显了大型语言模型从低结构化数据中提取临床有意义信息的能力,使其在资源匮乏或服务不足的场景中,对可扩展的心理健康筛查具有特殊价值。

在现有研究基础上,本研究做出了以下关键贡献:我们在包含 555 份现实世界精神科访谈的独特数据集上,对通用大型语言模型(如 GPT-4、Meta-LLaMA)和参数高效微调模型(如结合 LoRA 的 RoBERTa)进行了评估。

3. 数据集

我们使用的新型数据集包含 555 名美国成年人的信息,这些数据来自多项行为研究,旨在调查个体对职业压力、慢性疾病或创伤暴露等过渡性或不良生活事件的反应。所有参与者均在机构审查委员会(IRB)批准的协议下提供了书面知情同意。表 1 总结了参与者的人口统计学特征。

该数据集涵盖 553 名个体,性别分布均衡(男性 278 人,女性 275 人),多数为白人(431 人)。年龄分布在五个区间,且大多数参与者拥有大学肄业及以上学历。这种多样性有助于开展稳健的下游分析。

在访谈过程中,所有参与者均按预定顺序回答了相同的五个问题。第一个问题要求参与者描述前一天从起床到入睡的活动;后续问题分别涉及他们近期经历的挑战性事件或情况、应对该挑战的策略、一件不相关的近期不愉快事件,以及一件近期的积极经历。

表 1:参与者人口统计学特征总结

类别子类别人数
年龄25 岁以下123
25-34 岁128
35-44 岁96
45-59 岁132
60 岁及以上74
性别男性278
女性275
种族白人431
其他122
教育程度高中及以下98
大学肄业293
大学及以上134
未知28

访谈人员接受过标准化提示培训,参与者被鼓励针对每个问题自由发言,时长最长可达 3 分钟。每位参与者的访谈录音时长约为 15 分钟。随后,研究人员按照常规和建议对语音进行记录和转录(Coifman 等,2007;Coifman、Bonanno,2010;Coifman、Flynn、Pinto,2016;Harvey 等,2014)。

每位参与者的文本回答均与其抑郁症状相关联,这些症状数据来源于《精神疾病诊断与统计手册》结构化临床访谈(SCID)报告。研究收集了参与者的年龄、性别等人口统计学信息,并将其统一格式后整合。参与者的平均年龄为 39.36 岁(标准差 = 16.0)。样本性别分布大致均衡:278 名参与者为女性,277 名为男性,1 名参与者未报告性别。

完整访谈的平均长度约为 2955 个单词(标准差 = 1855)。这种设置有助于深入分析叙事深度对不同类型模型提取精神疾病信号的影响。对于输入长度受限的基础模型(如 Meta-LLaMA-3-8B),我们采用基于分块的推断策略:将每份用户记录分割为 512、1024 或 2048 个标记的重叠块,对每个块独立计算模型预测结果,再取平均值得到用户层面的二分类决策。这种设计在保留长叙事情境中诊断信号的同时,实现了可扩展的预测。

为体现叙事内容的丰富性,表 2 提供了同一名参与者在五个提示领域的代表性回答片段。这些回答反映了数据集的情感细微差别和主题复杂性,为自然主义心理健康推断提供了真实且具有生态有效性的基准。

表 2:访谈回答示例(参与者 ID:001)

提示回答片段
日常活动“一天开始的时候,我有两个儿子,一个…… 在外面玩…… 去了健身房……”
困难经历“作为一名消防员…… 既有挑战性又很棒的经历…… 但也有不好的经历……”
情绪调节“你可以和工作中信任的人聊聊…… 我和妻子已经结婚了……”
负面事件“第一次遇到重大事故…… 之前压力很大……”
正面事件“我们接生的第一个宝宝 —— 凌晨接到的电话…… 是个海洛因成瘾相关病例……”

4. 方法

本节系统阐述了评估现代人工智能模型在心理健康障碍领域应用能力的多种方法。

方法 1:通过直接提示进行多障碍推断

首先,我们研究现代基础模型能否在零样本场景下,直接从原始访谈文本中推断多种精神疾病。具体而言,我们提示大型语言模型(LLM)识别抑郁症、创伤后应激障碍(PTSD)和焦虑症等精神疾病的迹象,且不进行任何特定任务的训练或微调。我们对以下两种最先进的大型语言模型进行了评估:

  • GPT-4.1 Mini:在零样本配置下使用为每种疾病定制的提示。这种设置为无需重新训练的可扩展心理健康筛查提供了基准。
  • Meta-LLaMA-3-8B-Instruct:在零样本提示下进行评估。为减少长距离依赖带来的复杂性,访谈记录被进一步分割为 512、1024 或 2048 个标记的小块,且重叠率固定。每个分割后的记录被重新构建为提示,输入模型进行二分类。最终的用户层面预测结果通过对所有块的预测分数取平均值得到。

我们为所有模型和疾病采用以下标准化提示,遵循二分类输出格式以确保临床可解释性:

提示:基于大型语言模型(LLM)的精神疾病推断

你是协助心理健康专业人员识别精神疾病的人工智能。

输入数据:

“{回答文本}”—— 来自半结构化访谈的参与者自由回答。

任务:

分析参与者的回答,判断是否存在精神疾病迹象。无需包含任何推理或解释。

输出格式:

以单行二分类结果回复:

预测:是

预测:否

方法 2:以解码器模型为基础,结合参数高效微调(PEFT)增强

为实现模型对心理健康任务的领域适配,我们采用参数高效微调(PEFT)策略。具体而言,我们应用低秩适应(LoRA)方法,以计算高效的方式使预训练 Transformer 语言模型与疾病特定语义对齐。我们针对每种精神疾病(抑郁症、创伤后应激障碍、焦虑症),通过二分类监督分别对 Meta-LLaMA-3-8B-Instruct 模型进行微调。这种方式能以最少的额外参数实现高效适配,同时保留通用语言知识。

方法 3:以编码器模型为基础

我们还评估了基于编码器的语言模型的诊断能力。通常,我们选择广泛使用的通用编码器模型 RoBERTa-base(Liu 等,2019)和通过 Sentence-Transformers 库(Reimers、Gurevych,2019)获取的 all-roberta-large-v1 作为基础模型。

长文本输入适配

与通常支持大上下文窗口的基于解码器的语言模型不同,BERT 系列等基于编码器的模型的输入长度相对有限。为实现对长文本的处理,我们采用两步分块与聚合策略:首先将输入序列分割为可处理的块,然后聚合这些块的表征,构建用于下游分类的完整嵌入。

步骤 1:分块:给定包含长标记序列的用户记录 x,我们将其分割为大小为 c、重叠率固定的块 x_i。每个块通过配备参数高效微调(PEFT)的 RoBERTa 编码器独立编码:

h_i = RoBERTa (x_i) (1)

我们从每个块的嵌入中提取 [CLS] 标记,得到块级表征矩阵 H = [h₁^[CLS], …, h_T^[CLS]] ∈ R^(T×d),其中 T 为块的数量,d 为隐藏层大小。

步骤 2:聚合:获得块级记录表征后,我们将高维矩阵 H 聚合为单个向量 h,作为最终的用户表征。具体而言,我们采用两种不同的聚合策略:

  • 均值池化:h = (1/T) × Σ(从 i=1 到 T)h_i^[CLS]
  • 最大池化:h = max(从 i=1 到 T)h_i^[CLS]

原始编码器嵌入

作为补充基准,我们利用原始编码器模型(包括 RoBERTa-base 和 all-roberta-large-v1)处理用户记录,得到嵌入。然后将这些嵌入表征输入轻量级分类器 —— 逻辑回归、多层感知机(MLP)和极端梯度提升(XGBoost),以预测疾病的二分类标签。

参数高效微调(PEFT)增强嵌入

我们还利用低秩适应(LoRA)等参数高效微调(PEFT)方法对预训练编码器进行微调,试图使编码器语言模型与心理健康领域对齐。

为实现端到端预测,我们将学习到的文本嵌入输入专为抑郁症检测设计的简单分类模块。该模块(如轻量级多层感知机)将语义表征映射到特定任务标签。我们还应用层归一化以稳定训练,并对分类器权重采用 L2 正则化以减少过拟合。

5. 实验与结果

表 3:三种二分类任务(抑郁症、创伤后应激障碍、焦虑症)的整体性能比较(准确率、召回率、F1 分数)

类别模型抑郁症创伤后应激障碍焦虑症
准确率召回率F1 分数准确率召回率F1 分数准确率召回率F1 分数
解码器模型GPT-4.1 Mini0.8650.2840.3800.8120.1920.3150.8650.2840.314
LLaMA-3-8B-Instruct0.2240.9380.2590.3060.9600.3850.3360.9460.433
+ 思维链(CoT)0.6260.3880.2300.5590.2800.2230.5610.3180.279
+ 低秩适应(LoRA)0.7120.3330.2730.6220.1900.1600.6310.2190.255
编码器模型RoBERTa + 逻辑回归0.7500.2140.1940.8400.2850.3300.5100.3640.329
RoBERTa + 多层感知机(MLP)头0.7800.3570.3130.8200.2140.2500.6600.3330.393
RoBERTa + 极端梯度提升(XGBoost)头0.8300.2140.2610.8900.2860.4210.5700.2420.271
RoBERTa + 低秩适应(LoRA) + 多层感知机(MLP)0.6400.7860.3790.7800.6430.4500.7200.5460.563

本节详细介绍实验内容并报告相应结果。

5.1 实验配置

为减轻标签不平衡导致的输出偏差和性能下降,我们在训练基于解码器的模型时采用过采样策略,确保各类别监督均衡。在配备参数高效微调(PEFT)模块(方法 2 和方法 3)时,我们测试了不同的低秩适应(LoRA)秩(8、16、32),以评估参数效率和泛化能力。

数据集按用户分为 80% 的训练集和 20% 的测试集。所有模型均使用 AdamW 优化器训练,批大小为 8,学习率为 2×10⁻⁵。实验在配备单个 NVIDIA A100 GPU 的 Linux 服务器上进行。

5.2 评估指标

为评估模型在心理健康诊断任务中的性能,我们报告三个核心评估指标:准确率、召回率和 F1 分数(Tran、Kavuluru,2017)。

  • 准确率:衡量正确预测的总体比例,可大致反映模型在所有类别上的可靠性。
  • 召回率:衡量正确识别的真阳性病例比例,由于早期识别在临床上的重要性,我们将其作为重点关注指标。高召回率在心理健康领域至关重要,因为假阴性可能导致干预延迟或遗漏。
  • F1 分数:定义为精确率和召回率的调和平均数,在类别不平衡情况下能更均衡地反映性能,有助于量化过诊断与漏诊断之间的权衡。

所有指标均针对每种目标疾病(重度抑郁发作、创伤后应激障碍、焦虑症)在独立的用户测试集上单独计算,确保各方法间评估的一致性和公平性。这些指标共同构成了对诊断预测质量的临床有意义且统计稳健的评估。

我们对三种方法(基于基础语言模型的零样本提示、基于嵌入的分类器)在三种目标心理健康障碍的访谈数据上进行了评估。每种方法均使用准确率、召回率和 F1 分数进行评估,且特别关注召回率 —— 因其在减少漏诊方面具有临床意义。

5.3 整体评估结果

表 3 展示了基于解码器的模型(方法 1 和方法 2)与基于编码器的模型(方法 3)在三种心理健康疾病(抑郁症、创伤后应激障碍、焦虑症)诊断中的性能。

在基于解码器的方法中,GPT-4.1 Mini 的总体准确率最高,但召回率较低,表明其对阳性病例的敏感性有限。相比之下,LLaMA-3-8B-Instruct 的召回率极高,但准确率和 F1 分数较差,这表明在严重标签不平衡情况下,该模型存在过度预测阳性类别的问题。采用思维链(CoT)提示或低秩适应(LoRA)微调可在一定程度上改善精确率与召回率之间的平衡。

基于编码器的模型(尤其是结合低秩适应(LoRA)和多层感知机(MLP)头的模型)在所有任务中均表现出更稳定、更均衡的性能。值得注意的是,RoBERTa + 低秩适应(LoRA) + 多层感知机(MLP)在创伤后应激障碍和焦虑症检测中取得了最高的 F1 分数,表明其在领域特定适配方面效果显著,且额外参数开销小。总体而言,在标签不平衡情况下,结合参数高效微调(PEFT)的基于编码器的方法在分类稳健性上优于基于解码器的生成式方法。

6. 结果分析与消融实验

6.1 通过直接提示进行多障碍推断

我们评估了 Meta-LLaMA-3-8B-Instruct 模型在零样本场景下,针对三种心理健康疾病(抑郁症、创伤后应激障碍、焦虑症),不同块大小(512、1024、2048 个标记)的诊断性能。表 4 总结的结果显示出一致的模式:该模型在所有任务中均表现出高召回率(临床敏感性),值通常高于 0.90,但 F1 分数和总体准确率较低,均低于 0.45。

表 4:Meta-LLaMA-3-8B-Instruct 模型在不同块大小下,针对三种心理健康疾病的零样本性能

模型抑郁症创伤后应激障碍焦虑症
召回率F1 分数准确率召回率F1 分数准确率召回率F1 分数准确率
LLaMA-3(512 个标记)0.9500.2470.1630.9800.3730.2510.9730.4220.286
LLaMA-3(1024 个标记)0.9380.2590.2240.9600.3850.3060.9460.4330.336
LLaMA-3(2048 个标记)0.8500.2600.3000.8560.3770.3600.7970.3990.358

在抑郁症诊断中,模型使用 512 个标记输入时召回率最高,达 0.950,几乎捕捉到了所有真阳性病例。然而,F1 分数和准确率仅在上下文窗口更长时略有改善,在 2048 个标记设置下分别达到 0.260 和 0.300,但仍远低于最佳阈值。

在创伤后应激障碍诊断中,模型使用 512 个标记输入时召回率再次达到峰值 0.980。1024 个标记输入时 F1 分数最佳(0.385),2048 个标记输入时准确率最高(0.360),这表明随着块大小增加,敏感性与总体精确率之间存在逐步权衡。

在焦虑症诊断中,模型表现出相对更均衡的性能。尽管使用最长块大小时召回率最差(0.797),但 F1 分数和准确率均高于其他两种疾病。1024 个标记输入时 F1 分数最高(0.433),2048 个标记输入时准确率最高(0.358)。

6.2 基于低秩适应(LoRA)微调的模型

低秩适应(LoRA)已成为大型语言模型高效微调的重要策略,能在大幅节省参数的同时,保持良好的下游任务性能。在实验中,我们在两种架构(仅编码器 Transformer 模型 RoBERTa 和仅解码器 Transformer 模型 Meta-LLaMA)上测试了三种低秩适应(LoRA)秩(8、16、32),评估它们在三种心理健康疾病预测中的有效性。

总体而言,RoBERTa 在大多数指标上的表现始终优于 Meta-LLaMA。尽管准确率通常随秩的增加而提高,但召回率和 F1 分数在低秩时往往更高,不过这种趋势并非绝对单调(见表 5)。

表 5:低秩适应(LoRA)秩对编码器和解码器模型的影响

模型抑郁症创伤后应激障碍焦虑症
准确率召回率F1 分数准确率召回率F1 分数准确率召回率F1 分数
低秩适应(LoRA)_RoBERTa(秩 = 8)0.5600.8570.3530.7000.6430.3750.7000.6430.375
低秩适应(LoRA)_RoBERTa(秩 = 16)0.7700.2860.2580.7800.6430.4500.7200.5460.563
低秩适应(LoRA)_RoBERTa(秩 = 32)0.6400.7860.3790.7900.5710.4320.6900.4850.508
低秩适应(LoRA)_Meta(秩 = 8)0.5300.3330.1880.5030.3330.2370.5860.5000.410
低秩适应(LoRA)_Meta(秩 = 16)0.6760.1670.1430.6310.1900.1630.5410.5620.414
低秩适应(LoRA)_Meta(秩 = 32)0.5590.3330.1970.6760.2860.2500.4950.3120.263

在抑郁症诊断中,RoBERTa 模型在秩 = 16 时准确率最高(0.770),但该配置下的召回率和 F1 分数均低于 0.3。秩 = 8 时召回率最高(0.857),为所有任务中最高值;秩 = 32 时 F1 分数最高(0.379)。

在创伤后应激障碍诊断中,所有秩配置下的准确率均保持在 0.70 以上,秩 = 16 时达到峰值 0.790。低秩时召回率更高,而 F1 分数在秩 = 16 时最高(0.450),表明该秩适合此项任务。

在焦虑症诊断中,所有秩配置下的准确率和召回率均相对稳定:准确率在 0.541-0.720 之间,召回率在 0.500-0.6429 之间。秩 = 6 时准确率最高(0.720),秩 = 6 和秩 = 8 时召回率最高(0.6429)。F1 分数在秩 = 6 时达到峰值 0.5625,这也是所有疾病和配置中最高的 F1 分数。

6.3 基于嵌入的分类器

为补充大型语言模型的评估,我们还评估了基于嵌入的分类器,这些分类器使用从预训练 RoBERTa-base 和 all-roberta-large-v1 模型中提取的句子嵌入。如表 6 所示,在所有任务和模型中,all-roberta-large-v1 在召回率和 F1 分数上的表现始终优于 RoBERTa-base。尽管所有分类器的召回率普遍较低(通常低于 0.45),但准确率相对较高,常超过 0.80。

表 6:不同编码器基础模型和分类头的基于嵌入模型的性能(“Large” 指 all-roberta-large-v1)

模型抑郁症创伤后应激障碍焦虑症
召回率F1 分数准确率召回率F1 分数准确率召回率F1 分数准确率
RoBERTa + 逻辑回归(LR)0.2140.1940.7500.2850.3300.8400.3640.3290.510
RoBERTa + 多层感知机(MLP)0.0710.1110.8400.2100.2500.8200.1820.1820.640
RoBERTa + 极端梯度提升(XGBoost)0.0710.1100.8400.1430.1900.8300.2000.2000.600
Large + 逻辑回归(LR)0.4290.2670.6700.2860.2960.8100.3330.3730.630
Large + 多层感知机(MLP)0.3570.3130.7800.2140.2500.8200.3330.3930.660
Large + 极端梯度提升(XGBoost)0.2140.2610.8300.2860.4210.8900.2420.2710.570

在抑郁症分类中,all-roberta-large-v1 嵌入结合逻辑回归的召回率最高(0.429),而相同嵌入结合多层感知机(MLP)分类器的 F1 分数最佳(0.313)。各模型的准确率始终较高,在 0.67-0.84 之间。相比之下,基于 RoBERTa-base 嵌入的分类器召回率显著更低,凸显了使用更大、更具表达能力的语言模型的优势。

创伤后应激障碍分类呈现出类似趋势。all-roberta-large-v1 嵌入结合极端梯度提升(XGBoost)的 F1 分数(0.421)和准确率(0.89)最高。然而,所有分类器的召回率均较为温和,普遍低于 0.29,仅 RoBERTa-base 嵌入结合逻辑回归时达到 0.286。这些结果表明,尽管基于嵌入的模型可实现高准确率,但在识别真正的创伤后应激障碍病例方面能力有限,这限制了其在临床场景中的敏感性。

在焦虑症分类中,all-roberta-large-v1 嵌入结合多层感知机(MLP)分类器的 F1 分数(0.393)和召回率(0.333)最高。各模型的准确率在 0.51-0.66 之间。与抑郁症和创伤后应激障碍相比,焦虑症预测的精确率 – 召回率权衡更为均衡,尤其是在基于多层感知机(MLP)的架构中,这表明该诊断类别的预测稳定性更好。

7. 讨论与结论

本研究系统评估了三种方法范式(基于基础模型的零样本提示、低秩适应(LoRA)微调、基于嵌入的分类器)在从现实世界访谈记录中预测抑郁症、创伤后应激障碍和焦虑症方面的性能。尽管每种方法都有独特的优势和局限性,但关于其在心理健康筛查中的实际适用性,仍出现了若干关键主题。

为评估 GPT-4.1 Mini 的实际效用,我们将其零样本性能与开源基础模型(如 Meta-LLaMA-3)和轻量级基于嵌入的分类器进行了基准测试。结果显示,GPT-4.1 Mini 的总体准确率较高(≥0.80),这与现有研究结果一致(Chen 等,2025;Ben-Zion 等,2025)。然而,该模型在所有疾病上的召回率和 F1 分数均显著较低,这凸显了其在通用判别能力与临床敏感性之间的权衡。

在所有模型中,准确率通常保持较高水平,部分配置下甚至超过 0.85,这表明模型在人群层面上能可靠区分已确诊和未确诊个体。但在临床场景中,准确率 alone 无法反映诊断效用 —— 漏诊真阳性病例(即低召回率)可能会延误治疗或加剧伤害。这一问题在我们的结果中尤为突出:零样本 Meta-LLaMA 模型对所有疾病的召回率均超过 0.90,但 F1 分数和精确率较低,表明存在大量假阳性;而基于嵌入的分类器准确率高,但召回率显著较低,常低于 0.3,这凸显了它们漏诊真阳性病例的倾向(Ravenda 等,2025)。

从公共卫生角度来看,召回率可解读为临床敏感性,即模型检测真正需要治疗个体的能力。鉴于抑郁症、焦虑症和创伤后应激障碍常同时存在,即使是单次阳性提示也可能提高用户对自身状况的认知,促使其寻求进一步临床咨询。因此,高召回率的模型(即使精确率有所降低)在数字心理健康应用中可能成为有效的早期预警工具。

低秩适应(LoRA)微调在效率和性能之间取得了良好平衡。经低秩适应(LoRA)微调的 RoBERTa 模型在召回率和 F1 分数之间实现了最佳整体平衡,尤其在焦虑症分类中(F1=0.563)。值得注意的是,低秩配置(如秩 = 8)在召回率上有时优于高秩配置,这表明参数高效适配可能非常适合敏感性筛查任务,且无需大量计算成本。基于嵌入的模型虽更简单、可解释性更强,但在召回率方面表现不佳,表明其在复杂临床类任务中的适用性有限。

局限性与结论

本研究存在若干局限性,值得探讨。首先,诊断标签存在不平衡问题,阳性病例仅占数据集的约 20%,有时甚至更少。这种不平衡给训练稳定性和模型评估带来了挑战,因为高准确率可能掩盖模型对少数类别的低敏感性。未来研究可采用权重调整策略或合成过采样技术,以更好地校准预测结果。

其次,尽管通用大型语言模型已展现出强大的语言能力,但其对心理健康特定话语的理解仍有限。这些模型可能缺乏对精神科术语、症状表达或心理健康对话实用情境的细致理解。例如,它们可能误解通俗化的痛苦表达,或忽略心理状态的细微指标。在相关语料库(如治疗记录或临床笔记)上训练的领域适配大型语言模型,可为早期检测等任务提供更可靠的基础。

第三,与所评估的大型语言模型规模相比,本研究的数据集规模相对较小。即使采用参数高效微调(如低秩适应(LoRA)),有限的训练样本仍会限制模型的泛化能力,尤其是在尝试更新或专门化领域相关表征时。冻结核心参数可能会进一步加剧这一瓶颈。

第四,访谈长度给上下文窗口有限的解码器模型带来了认知负担。尽管分块策略在一定程度上缓解了这一问题,但仍可能丢失上下文或过度强调无关信息。更复杂的情境感知方法(如记忆增强提示、分层建模或相关性引导分块)可能会提升性能。

展望未来,以下几个方向具有潜力。除通用分类外,针对人口统计亚组(如按年龄、性别或种族划分)的分析可能会揭示模型敏感性的重要差异。将情绪和语言信号(如情感轨迹、情感强度)纳入训练数据,也可能提高预测有效性(Gerczuk 等,2023;Rasool 等,2025)。最后,分析误分类病例,并通过提示工程或对比示例探究模型推理路径,可能会揭示模型的失效模式,并为针对性改进模型对齐提供依据。

伦理考量

尽管基于大型语言模型的人格预测在可扩展评估方面具有潜力,但也引发了关于隐私、知情同意和可解释性的重大关切。我们告诫,在没有人工监督的情况下,不应将此类模型用于高风险决策,并倡导基于心理学理论的透明评估协议。

网站页脚示例