人工智能知识辅助系统：一种为对话式人工智能代理构建知识库的自动化方法

摘要

随着大型语言模型（LLMs）的快速发展，利用检索增强生成（RAG）技术来解决客户问题的对话式人工智能系统的应用日益广泛。然而，缺乏企业专属的专用知识库，是对话式人工智能系统在呼叫中心集成过程中的主要障碍。为此，我们提出了 “人工智能知识辅助系统”（AI Knowledge Assist），该系统能从历史客户 – 代理对话中以问答（QA）对的形式提取知识，从而自动构建知识库。在内部数据上对轻量级大型语言模型进行微调后，其性能达到了当前最优水平，甚至超过了更大规模的闭源大型语言模型。具体而言，对 20 家企业的实证评估表明，所提出的人工智能知识辅助系统（采用 LLaMA-3.1-8B 模型）能够从对话中提取信息查询类问答对，准确率超过 90%，从而消除呼叫中心的冷启动问题，助力基于检索增强生成技术的聊天机器人快速部署。

1 引言

生成式人工智能能够为众多行业带来变革，其中就包括呼叫中心行业 ¹。

¹ 参考链接：https://www.salesforce.com/ca/service/contact-center/ai/

随着客户对高质量服务需求的不断增长，呼叫中心一直在寻找优化流程的方法（Laskar 等人，2023b）。构建对话式代理来解答客户问题，便是实现这一目标的途径之一（Ferraro 等人，2024）。在实际场景中，呼叫中心的虚拟代理通常依赖包含问答对的完整知识库来处理客户咨询。然而，许多企业可能会面临冷启动问题：要么知识库中找不到与客户问题相关的信息（如帮助中心文章），要么呼叫中心本身就没有建立知识库（Zheng 等人，2023b）。这一问题严重限制了对话式人工智能代理在各行业的应用。同时，从零开始构建知识库耗时费力，也阻碍了这类对话式人工智能系统的推广。

表 1：从对话记录中提取知识的示例（问答对形式）

对话记录	提取的问答对
代理：早上好，有什么可以帮您？客户：你们的退款政策是怎样的？代理：未使用的商品可在购买后 1 个月内退款，已使用的商品需在购买后 1 周内退货。	问题：退款政策是什么？答案：未使用的商品可在购买后 30 天内退款，已使用的商品需在购买后 7 天内退货。

表 2：人工智能知识辅助系统概述

流程步骤	具体内容
历史对话记录	对话记录 1：客户：您好，我登录账号时遇到了密码问题……代理：请通过…… 重置密码。……对话记录 N：客户：如何申请退款？代理：您好，有什么可以帮您？请发送邮件至……客户：之后能更改套餐吗？代理：当然可以！您可以升级或降级……
提取的问答对	Q1：如何取消（订单）？A1：根据我们的政策，您可以在…… 之前取消。Q2：如何更改套餐？A2：点击……Q3：如何重置密码？A3：您可以通过…… 重置密码。Q4：如何终止（服务）以申请退款？A4：访问…………QN：如何更改密码？AN：请点击……
问答对聚类	聚类 1：Q1：如何取消（订单）？Q2：如何取消订单？……聚类 N：Q1：如何重置密码？Q2：更改密码的方法？Q3：重置密码的步骤？……
具有代表性的问答对	聚类 1 代表性问答对：问题：你们的取消政策是什么？答案：根据我们的政策，您可以在…… 之前取消。聚类 N 代表性问答对：问题：如何重置我的密码？答案：您可以全天 24 小时通过邮件…… 重置密码。……
知识库构建	知识管理人员审核：是 / 否最终形成包含代表性问答对的知识库

尽管如此，呼叫中心通常拥有大量的客户服务对话日志（通话记录和聊天记录），其中包含重复出现的信息查询类问题及其解决方案（Laskar 等人，2023b）。将这些历史对话中的过往交互转化为常见问题（FAQ）式的知识仓库，有助于快速构建现成的知识库（Agrawal 等人，2024）。这可能会提高聊天机器人功能的使用率，通过专用知识库帮助处理客户问题，从而提高代理的工作效率，最终提升客户满意度。

本文旨在解决对话式人工智能代理的冷启动问题。为此，我们提出了 “人工智能知识辅助系统”—— 这是一种基于生成式人工智能的系统，能够从过往对话中自动构建知识库。具体而言，我们利用经济高效的大型语言模型（Wan 等人，2024）分析历史客户 – 代理对话，以问答对的形式提取知识（示例见图 1），并将其存储在知识库中，从而解决冷启动问题。本文详细介绍了我们在实际呼叫中心部署人工智能知识辅助系统以解决客户问题的开发和评估方法。在真实数据集上进行的大量实验表明，所提出的人工智能知识辅助系统能够显著提升呼叫中心人工智能聊天机器人处理客户问题的能力。

2 相关工作

近年来，大型语言模型在各类任务的零样本场景中取得了成功（Laskar 等人，2023a），为其在实际工业场景中的新应用领域开辟了道路（Zhang 等人，2025；Otani 等人，2025）。这启发研究人员和从业者利用大型语言模型解决需要分析嘈杂对话记录的复杂任务（Saini 等人，2025；Zhu 等人，2025；Laskar 等人，2023c、2024b）。此外，由于大型语言模型能生成类人响应，对话式人工智能代理的开发也在不断推进 ²。

² 参考链接：https://www.genesys.com/definitions/what-is-conversational-ai-for-call-centers

然而，以往关于构建对话式人工智能代理的研究存在以下局限性：（1）未探讨当企业没有专用知识库时如何解决冷启动问题（Agrawal 等人，2024；Xu 等人，2024）；（2）需要人工标注的大型训练数据集来构建从对话记录中提取信息的模型，而在实际工业场景中，这类数据集难以获取（Fu 等人，2022）；（3）评估仅局限于聊天记录（Zheng 等人，2023b），忽略了嘈杂的语音记录（Fu 等人，2022）。

已有研究表明，大型语言模型在分析嘈杂对话记录方面具有良好效果（Laskar 等人，2023c）。基于此，本文提出了人工智能知识辅助系统，该系统利用大型语言模型分析呼叫中心的通话记录，并从这些对话数据中以问答对的形式提取相关知识。提取的问答对随后存储在知识库中，以解决冷启动问题。与以往研究不同，本研究聚焦于解决实际工业场景中的冷启动问题，且该系统完全基于嘈杂的对话记录，以经济高效的方式开发而成。

3 我们提出的方法

人工智能知识辅助系统采用三阶段流程，具体如下（见图 2）：

3.1 从对话记录中提取知识

第一步是从历史通话记录中提取潜在的问答对。对于给定的通话记录，通过提示词引导大型语言模型提取客户提出的信息查询类问题，以及代理给出的相应答案。由于我们使用的是语音记录，因此在必要时，还会指示大型语言模型对问题和答案进行重写（而非单纯提取），确保无需阅读完整对话就能理解这些问答对。大型语言模型提取问答对的过程可表示为：

\(\left\{(Q_{i},A_{i})\right\}_{i=1}^{N(T)}=LLM(T;\theta)\) （1）

其中，\(\theta\) 表示模型参数，该模型同时完成问答对的提取和重写工作。\(N(T)\) 表示模型从对话记录 T 中提取到的问答对数量，\((Q_{i},A_{i})\) 表示第 i 个问答对。通过这种方式，我们从 M 个对话记录（\(T_{1},T_{2},\dots,T_{M}\)）中提取问答对。

3.2 用于去重的聚类方法

从不同对话记录中提取问答对后，可能会存在冗余问题（例如，语义相似的问答对可能出现在多个对话记录中）。若不加以处理，知识库中会包含大量冗余的问答对。因此，第二步需将这些问答对聚类为语义相似的组，以便去重和筛选相关性强的问答对。为此，我们首先计算每个问答对中问题嵌入向量之间的余弦距离，公式如下：

\({dist}({q}_{i},{q}_{j})\;=\;1-\frac{{q}_{i}\cdot{q}_{j}}{\lVert{q}_{i}\rVert\,\lVert{q}_{j}\rVert}\) （2）

其中，\({q}_{i}\) 和 \({q}_{j}\) 分别表示第 i 个和第 j 个问答对中问题的嵌入向量。最后，应用聚类算法对问答对进行分组，以最小化组内距离、最大化组间距离。

3.3 推荐具有代表性的问答对

在最后一步中，我们再次利用大型语言模型处理每个问答对聚类。对于每个聚类，模型会选择一个或多个最能概括该聚类信息的代表性问答对。这一步具有双重目的：一方面，通过确保高度相似的问题不会导致冗余条目，实现去重和筛选；另一方面，推荐格式规范、信息丰富的问答对，纳入最终的知识库。第 k 个聚类中的代表性问答对可定义为：

\(\mathcal{R}_{k}\;=\;LLM\!\bigl(C_{k};\,\theta\bigr)\) （3）

其中，\(C_{k}\) 表示 \(1,\dots,K\) 个问答对聚类中的第 k 个聚类，\(LLM(\,\cdot\,;\theta)\) 表示带有参数 \(\theta\) 的大型语言模型，\(\mathcal{R}_{k}\) 表示为该聚类选择的代表性问答对集合。这些代表性问答对既可以直接插入知识库，也可以推荐给知识管理人员，经人工审核后再最终纳入知识库。

表 3：对话记录知识提取性能表

模型	精确率	召回率	F1 分数	ROUGE-1	ROUGE-2	ROUGE-L	BERT 分数	问答对数量
Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）	84.88	84.85	84.86	41.26	19.68	23.87	60.12	2.4 万
LLaMA-3.1-8B-Instruct（ llama-3.1-8B – 指令型）	58.29	57.98	58.13	42.37	18.25	25.38	60.80	2.4 万
DeepSeek-R1-LLaMA-8B（深度探索 – R1-llama-8B）	51.43	48.10	49.71	39.79	15.45	22.49	58.58	2.1 万
GPT-4o-Mini（GPT-4o – 迷你版）	74.62	68.68	71.53	49.13	23.79	29.09	67.95	2.2 万
Gemini-2.0-Flash（ Gemini-2.0 – 快速版）	82.29	60.31	69.60	47.14	24.19	28.59	62.81	1.8 万
Gemini-2.0-Flash-Lite（Gemini-2.0 – 快速精简版）	72.30	58.81	64.86	47.07	23.70	28.81	62.09	2 万
Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版）	76.72	70.88	73.68	54.17	25.42	28.74	66.86	2.2 万

表 4：基于代表性问答对最终推荐的端到端性能表

模型	精确率	召回率	F1 分数	问答对数量
Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）	91.4	92.2	91.8	1.4 万
Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版）	81.1	78.1	79.6	1.3 万

4 实验设置

4.1 数据集

我们于 2024 年 11 月从 Dialpad 公司 ³ 的 20 家客户企业的呼叫中心收集了真实数据，这些数据包括由自动语音识别系统生成的客户 – 代理通话记录。平均每个对话记录包含 855 个单词。为确保客户数据隐私，我们使用谷歌云数据防泄漏⁴服务对数据集进行了匿名化处理。

³ 参考链接：https://www.dialpad.com/

⁴ 参考链接：https://cloud.google.com/security/products/

需要注意的是，在实际场景中，获取人工标注数据面临诸多挑战，尤其是在处理嘈杂的业务对话时，难度更大（Laskar 等人，2022）。考虑到这些挑战以及客户的数据隐私顾虑，我们采用提出的方法，使用 Gemini-2.5-Pro⁵模型对收集的数据集进行标注：（1）利用 Gemini-2.5-Pro 从对话记录中提取问答对；（2）基于 BGE-Large⁶模型生成的问题嵌入向量，使用 DBSCAN 算法（Schubert 等人，2017）对提取的问答对进行聚类；（3）利用 Gemini-2.5-Pro 模型选择代表性问答对。

⁵ 参考链接：https://deepmind.google/models/gemini/pro/

⁶ 参考链接：https://hf.co/BAAI/bge-large-en-v1.5

通过这种方式，我们标注了 27500 个样本：其中 12500 个用于知识提取（5500 个用于训练，7000 个用于评估），15000 个用于代表性问答对推荐（2500 个用于训练，12500 个用于评估）。

4.2 模型选择

由于我们的目标是在实际工业场景中部署该解决方案，因此选择模型时，需兼顾较高的准确率、较快的推理速度和较低的成本（详见附录 A 的成本分析）。综合考虑开源大型语言模型在实际场景中的准确率和效率（Laskar 等人，2023c；Fu 等人，2024），我们为知识提取和最终推荐环节选择的模型参数规模至少为 70 亿（且不超过 100 亿）。具体而言，我们选用了 LLaMA-3.1-8B 模型（Dubey 等人，2024），因为该模型在实际工业应用中应用广泛⁷。

⁷ 参考链接：https://about.fb.com/news/2025/01/organizations-using-llama-solve-industry-challenges/

对于闭源模型，我们同样优先选择性价比最高的版本。具体来说，我们选用了 OpenAI 的迷你版⁸模型和谷歌 Gemini 系列的快速版⁹模型。

⁸ 参考链接：https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

⁹ 参考链接：https://deepmind.google/models/gemini/flash/

在聚类方面，我们采用 DBSCAN 算法（Schubert 等人，2017）结合 BGE-Large 嵌入向量（Xiao 等人，2024；Chen 等人，2024）。在我们的数据集上评估发现，该组合的性能优于其他方法（如 K-Means 算法（Lloyd，1982））（详见附录 B）。

4.3 实现过程

对于开源模型，我们使用 HuggingFace（Wolf 等人，2020）进行实现；对于闭源模型，则使用相应的 API 提供商的服务。在有监督微调方面，我们采用 LLaMA-3.1-8B 模型，共运行 3 个轮次（epochs），最大序列长度设置为 8000 个 token：输入和输出各 4000 个 token。学习率在 2e-4 到 2e-6 之间（含端点值）进行调优。

在响应生成方面，我们使用每个模型的默认解码参数（开源模型使用 HuggingFace 的默认参数，闭源模型使用 OpenAI 和谷歌 Gemini 的官方 API 默认参数），但输入和输出的 token 限制与微调时保持一致。所有实验均在配备 8 块 NVIDIA A100 GPU 的机器上运行。

4.4 评估设置

由于我们的数据集是由 Gemini-2.5-Pro 标注的，若将微调模型与 Gemini 标注结果进行比较，可能存在偏差，因此我们并未将评估局限于 ROUGE（Lin，2004）或 BERTScore（Zhang 等人，2019）等基于参考的指标。受 “大型语言模型作为评估者” 这一方法成功案例的启发（Gu 等人，2024；Laskar 等人，2024a、2025），我们提出在无参考设置下，使用大型语言模型作为评估者来评估大型语言模型生成的输出。

为避免使用 Gemini-2.5-Pro 标注训练数据训练的模型出现自我增强偏差（Zheng 等人，2023a；Ye 等人，2024），我们没有选用 Gemini 系列模型作为评估者。相反，考虑到 GPT-4o 模型（OpenAI，2023）在各类评估任务中的有效性（Xiong 等人，2025），我们选用其作为评估者。我们明确指示该大型语言模型评估者完成以下任务：

（1）在知识提取阶段，根据规则确定从给定对话记录中正确提取的问答对数量；

（2）在最终推荐阶段，根据规则确定从给定聚类中正确提取的代表性问答对数量。

基于上述信息，我们计算精确率、召回率和 F1 分数。在聚类模型评估中，我们使用轮廓系数（Silhouette）（Rousseeuw，1987）作为评估指标。

4.5 提示词构建

为构建知识提取、知识推荐阶段以及使用大型语言模型评估者进行评估所需的提示词，我们在部分采样数据上进行了大量提示词工程，以筛选出最优提示词。实验中使用的筛选后提示词详见附录 C。

5 结果与讨论

在本节中，我们将呈现实验结果。我们将基于 LLaMA-3.1-8B 的有监督微调（SFT）模型命名为 Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调），并将其性能与多种经济高效的开源模型（LLaMA-3.1-8B-Instruct（llama-3.1-8B – 指令型）、Deepseek-Distilled-R1-LLaMA-8B（深度探索 – 蒸馏 – R1-llama-8B））和闭源模型（GPT-4o-Mini（GPT-4o – 迷你版）、Gemini-Flash（Gemini – 快速版））进行比较。下文详细的实验结果将重点展示所提出系统在知识提取和推荐关键阶段的性能。

5.1 从对话记录中提取知识的性能

如表 1 所示，我们基于 LLaMA-3.1-8B 构建的微调模型 Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）在知识提取任务的精确率、召回率和 F1 分数上均表现最佳，超过了闭源和开源的零样本基线模型。具体而言，该模型的 F1 分数达到 84.86%，超过了 GPT-4o-Mini（71.53%）和 Gemini-2.5-Flash-Lite（73.68%）。这表明，在较大规模的大型语言模型标注内部数据集上进行微调，对完成该任务具有显著效果。

在基于参考的设置中，部分闭源模型（如 Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版））在自动指标（如 ROUGE 和 BERTScore）上表现出较强性能。然而，我们评估数据集中的参考标注是由 Gemini 系列中性能最强的 Gemini-2.5-Pro 模型完成的。相比之下，在无参考设置下，经独立大型语言模型评估者（GPT-4o）评估，我们的 Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型仍保持竞争优势。这些发现表明，在实际场景中，当数据集由大型语言模型标注时，使用无参考指标有助于降低评估偏差。

图 3：Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型在不同行业类型中最终推荐代表性问答对的 F1 分数

行业类型	F1 分数
教育	86
政府	87
交通	89
矿产开采	90
慈善	91
酒店餐饮	91
建筑	92
零售	93
控股集团	93
媒体互联网	93
农业	93
专业服务	94
律师事务所及法律服务	94
商业服务	94
消费者服务	94
能源、公用事业及废弃物处理	95
软件	95
制造业	96
电信	99

（分数范围：80.0-100.0）

5.2 用于去重的聚类结果

人工智能知识辅助系统的下一步是聚类，即根据问题嵌入向量之间的相似度，将相似的问答对归为同一聚类。我们从知识提取阶段中选取了表现最佳的两个模型 ——Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型和 Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版）模型（见表 1），并使用 DBSCAN 算法（Schubert 等人，2017）结合 BGE-Large 嵌入向量（Chen 等人，2024），将提取的问答对按语义相似性分组。

聚类实验结果显示，Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版）模型得到 1578 个聚类，Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型得到 1429 个聚类。随后，将每个聚类中的所有问答对输入大型语言模型，构建代表性问答对，并推荐其纳入知识库。下文将展示系统最后也是最关键的一步 —— 为知识库推荐代表性问答对的实验结果。

5.3 推荐具有代表性问答对的性能

在本节中，我们在表 2 中呈现了人工智能知识辅助系统的端到端性能。结果显示，Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型再次表现出卓越性能，F1 分数高达 91.8%，超过了 Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版）模型的 79.6%。

最终阶段的高精确率和高召回率至关重要，因为这能确保知识库中填充的信息准确且相关，直接影响对话式人工智能代理的性能。整体准确率超过 90%，这表明我们的系统能够有效填补企业的冷启动空白。我们还发现，对于大多数企业，F1 分数也超过了 90%（见图 3）。

5.4 模型选择的影响

我们通过实验研究了模型选择的重要性，主要围绕以下两个问题：

（1）微调所使用的基础模型选择是否会影响性能？

（2）标注模型的差异是否会影响性能？

表 5：模型选择对知识提取阶段的影响

模型	精确率（P）	召回率（R）	F1 分数
Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）	84.88	84.85	84.86
– 替换基础模型（LLaMA-3.1-8B 替换为 Qwen3-8B）	77.12	72.48	74.73
– 替换标注模型（Gemini-2.5-Pro 替换为 GPT-4o）	80.45	55.89	65.95

表 3 呈现了实验结果。我们发现，将基础模型从 LLaMA-3.1-8B 替换为 Qwen3-8B（Yang 等人，2025）后，所有指标均出现显著下降，F1 分数降至 74.73%，这凸显了基础模型选择的重要性。此外，当我们将数据标注模型从 Gemini-2.5-Pro 替换为 GPT-4o 时，在该数据上训练的模型性能大幅下降，F1 分数降至 65.95%。这一结果也强调了数据标注模型选择的重要性。

5.5 人工评估

我们进一步对 Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型和 Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版）模型推荐的最终代表性问答对进行了人工评估。在人工评估中，我们随机选择了 100 个对话，主要考察以下三个方面：

（1）人类更偏好哪个模型推荐的问答对（若两者均被偏好，则记为 “平局”）？

（2）最终推荐的问答对中有多少得到人类认可（这模拟了实际场景中知识库管理人员对最终推荐问答对的审核过程）？

（3）大型语言模型评估者与人类评估者对最终推荐问答对的判断一致性如何（我们通过计算大型语言模型评估者和人类评估者标注为正确的、每个对话记录推荐的代表性问答对数量的完全匹配度来衡量）？

本次评估由两名具有数据科学和计算语言学专业知识的人员完成。表 4 中的结果显示，在 25% 的案例中，人类更偏好 Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型推荐的问答对；相比之下，人类仅在 17% 的案例中偏好 Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版）模型推荐的问答对。此外，人类评估者认可并同意纳入知识库的最终推荐问答对数量，Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型为 107 个，Gemini-2.5-Flash-Lite（Gemini-2.5 – 快速精简版）模型为 98 个。因此，与大型语言模型评估者的评估结果一致，微调模型在人工评估中也表现出优越性。

此外，我们发现人类评估者与 GPT-4o 评估者的判断一致性约为 90%，这表明使用 GPT-4o 作为大型语言模型评估者具有较高的可靠性（部分大型语言模型评估者的错误案例详见附录 D）。我们还对 100 个样本中每个模型获得认可的问答对数量进行了威尔科克森符号秩检验（Woolson，2007）。结果显示，Knowledge-Assist-8B-SFT（知识辅助 – 8B – 微调）模型生成的获得认可的问答对数量多于基线模型，且这种差异具有统计学意义（p≤0.05）。这些发现进一步有力地证明，我们的系统在生成人类评估者认为正确且有价值、可纳入知识库的内容方面，优于基线模型。

图 4：人工智能知识辅助系统简易演示

呼叫中心	开始日期	结束日期	输入	输出
ABC 公司	2025 年 6 月 1 日	2025 年 6 月 30 日	–	分析了 7000 条通话记录，推荐了 6000 个问答对

6 实际场景部署与应用

本文在谷歌 Vertex AI 平台 ¹⁰上借助 Kubeflow 部署人工智能知识辅助系统（需 1 块 L4 GPU）。该配置支持从数据处理到模型推理的全流程自动化执行。图 4 展示了系统的简易演示：用户选择呼叫中心与时间范围后，Kubeflow 流水线会自动分析该时间范围内的所有对话记录，为知识库推荐问答对。

¹⁰ 参考链接：https://cloud.google.com/vertex-ai

已部署系统的核心特性之一是知识库的自更新能力。实现这一特性需持续处理新的通话记录，以提取潜在的新问答对。通过聚类从提取的问答对中构建代表性问答对后，可通过计算嵌入向量相似度，将代表性问答对中的问题与知识库已有问题进行比对。若相似度得分低于预设阈值，则表明出现了显著不同的新客户问题。此时，新提取的问答对可被标记并自动添加到知识库；若需更高质量控制，也可将其发送给知识管理人员审核。此外，对于相似问题，还可计算答案间的相似度，若得分低于预设阈值，可能意味着知识库中的答案已过时（如产品 / 功能更新）。这种自更新机制确保知识库始终保持时效性，并通过适应新客户问题与产品变化，持续完善优化。

7 结论

本文提出人工智能知识辅助系统，这是一款基于大型语言模型的系统，旨在解决对话式人工智能代理的冷启动问题。大量实验表明，该系统在从历史对话记录中自动创建知识库方面效果显著，使没有现有知识库的呼叫中心也能借助该系统构建对话式人工智能系统。此外，本文还探讨了如何可靠地开发、评估与部署此类系统 —— 通过利用构建的知识库，对话式代理能更高效、更精准地解决客户问题，进而提升客户体验与代理工作效率。未来，将构建新的基准，研究如何高效更新现有知识库。

局限性

由于模型在客户 – 代理对话数据上训练，若不进行进一步提示词工程或微调，可能无法适用于其他领域。此外，本研究使用专有数据开发与评估系统，因此未公开该数据集。但为最大限度提升方法的可复现性，本文提供了详细信息，包括所用特定开源模型、微调参数及实验中使用的完整提示词。

伦理声明

人工评估补偿

人工评估由具备计算语言学专业知识的内部科学家完成，无需额外补偿。此外，由于专有数据集包含由内部自动语音识别系统生成的嘈杂业务对话记录，数据处理难度较大，因此由内部员工开展人工评估。

数据隐私

制定了数据保留政策，用户可选择不允许其通话记录用于模型开发。在数据收集过程中，移除了信用卡号、电话号码等敏感个人身份信息（PII），以保护用户隐私。

许可协议

使用 HuggingFace 等不同工具时，严格遵守相应的许可要求。

附录 A 成本分析

本研究中所有开源模型的参数均少于 100 亿，可在单块 NVIDIA L4 GPU 上顺畅运行（Laskar 等人，2023c）。专有模型中，Gemini-2.0-Flash-Lite（Gemini-2.0 – 快速精简版）性价比最高，输入每百万 token 成本为 0.075 美元，输出每百万 token 成本为 0.30 美元；Gemini-2.0-Flash（Gemini-2.0 – 快速版）输入每百万 token 成本为 0.15 美元，输出每百万 token 成本为 0.60 美元。由于 Gemini-2.5-Flash（Gemini-2.5 – 快速版）价格过高（输入每百万 token 0.30 美元，输出每百万 token 2.50 美元），本研究未将其纳入考量。OpenAI 模型中，GPT-4o-Mini（GPT-4o – 迷你版）价格略高，输入每百万 token 0.15 美元，输出每百万 token 0.60 美元；而用于评估的 GPT-4o 模型价格更高，输入每百万 token 2.50 美元，输出每百万 token 10 美元。数据标注环节使用 Gemini-2.5-Pro 模型，输入每百万 token 成本为 1.25 美元，输出每百万 token 成本为 10 美元。

附录 B 聚类模型评估

聚类评估环节以轮廓系数（Rousseeuw，1987）为指标，对比 DBSCAN 算法（Schubert 等人，2017）与 K-Means 算法（Lloyd，1982）的性能。通过对比多种嵌入模型发现，BGE 嵌入向量（Xiao 等人，2024；Chen 等人，2024）在效率与准确率上表现最佳。图 5 展示了不同 BGE 嵌入模型在最佳配置（每个聚类最小样本量为 2）下的结果，可见 DBSCAN 算法性能远优于 K-Means 算法。此外，DBSCAN 算法能自动确定聚类数量 —— 这一优势尤为关键，因为不同企业的通话量存在差异，且潜在聚类结构的异质性较高，自动确定聚类数量可更好地适配数据特点。相比之下，K-Means 算法需预先设定聚类数量 k，因此不适用于最优聚类数量未知的数据集。

图 5：聚类方法性能对比（最佳配置）

嵌入模型	K-Means 算法		DBSCAN 算法
	轮廓系数	聚类数量	轮廓系数	聚类数量
bge-base-en-v1.5	–	–	0.7	91
bge-large-en-v1.5	–	97	–	92
bge-small-en-v1.5	0.1	98	0.1	98

（轮廓系数范围：0.0-0.7）

附录 C 示例提示词

以下为知识提取、推荐环节及使用大型语言模型评估者进行评估的示例提示词：

提示词：利用大型语言模型从对话记录中提取知识

给定一段通话记录，包含两位说话人：“客户”（寻求帮助者）与 “代理”（客户服务代表）。

你的任务是从这段通话中提取事实准确、质量较高的知识，并以 “问题” 和 “答案” 的形式呈现 —— 这些知识将被上传至知识库，以便未来客户提出类似问题时，可通过知识库解答客户疑问。

由于该记录由语音转录生成，可能存在表达生硬或口语化的内容，因此可对从对话中提取的知识（即问答对）进行重写，确保无需阅读完整对话就能理解这些问答对。

提取知识时需遵循以下规则：

仅提取非敏感知识，不得包含个人身份信息（PII）；
提取的知识需具备通用性与信息查询属性，适用于未来有类似需求的客户，避免提取闲聊或建立融洽关系类的非信息查询内容；
不得提取时效性强的答案（如仅在特定日期前有效的答案）；
若问题涉及某产品，需在所选问答对中注明产品名称，确保纳入知识库后易于理解。

输出格式：

仅返回 JSON 对象数组，无需附加其他文本。每个 JSON 对象包含三个键：（1）“Question”（问题）、（2）“Answer”（答案）、（3）“Justification”（理由）。

其中，“理由” 需说明选择该 “问题 – 答案” 对的依据，以及如何严格遵循所有规则；此外，还可包含对话记录中支持所提取知识（即问答对）的片段。若未提取到知识对，只需返回空 JSON 数组。

通话记录：

[通话对话记录]

提示词：推荐具有代表性的问答对

给定一个问答对聚类，该聚类将相似问题归为一组。这些问答对从不同客户 – 代理对话中提取，将被存储至企业知识库。

你的任务是对聚类中的问答对进行筛选，构建具有代表性的问答对。为此需遵循以下规则：

无重复：若聚类中存在多个重复问答对，仅提取一个可代表该聚类的问答对；
重写或提取：代表性问答对可直接从聚类中提取，也可在必要时重写以提升可理解性；
非时效性：仅在特定时间段内有效的问答对（如 “某事需在今日完成”）不得作为代表性问答对；
非个性化：针对特定客户或包含个人身份信息（如账单信息、地址等账户专属详情）的问答对不得作为代表性问答对；
通用性：不具备通用性、不适用于未来有类似需求客户的问答对不得作为代表性问答对；
实用性：代理无法在企业知识库中使用以解答其他客户未来问题的问答对不得作为代表性问答对；
信息查询属性：仅选择信息查询类问答对，不得包含个人问题（如 “你叫什么名字”“你的地址是什么”）、闲聊或建立融洽关系类问答对；
可理解性：若问答对中的问题涉及某产品，需在代表性问答对中明确注明产品名称，确保易于理解。

严格遵循上述规则后，以 JSON 数组格式生成答案，包含以下键：

（1）“Representative Question”（代表性问题）

（2）“Representative Answer”（代表性答案）

（3）“Type”（类型）

（4）“Explanation”（解释）

其中，“类型” 取值为 “Rewritten”（重写）或 “Extracted”（提取）：“Rewritten” 表示该问答对经重写生成，“Extracted” 表示该问答对直接提取且未重写；“解释” 需说明重写原因，若类型为 “Extracted”，则 “解释” 填 “N/A”（不适用）。

注意：仅在必要时进行重写；重写时可结合多个问题与答案的信息构建代表性问答对（若相关），但需确保不丢失任何重要信息。

若相似问题对应不同答案，且无法将多个答案合并为一个代表性答案，则可保留所有答案。

以下为问题聚类，请构建代表性问答对。

问题聚类：[问答对列表]

提示词：利用大型语言模型评估者评估知识提取与推荐模型

给定从客户 – 代理对话中提取的知识（以问答对形式呈现），这些知识将被存储至企业知识库。未来企业新客户与新代理对话时，若客户提出类似问题或有类似疑问，代理可借助知识库解答。

你的任务是根据以下规则，判断提取的问答对中有多少严格符合要求：

非时效性：不得包含仅在特定时间段内有效的问答对（如 “某事需在今日完成”）；
非个性化且无个人身份信息：不得包含针对特定客户、包含个人身份信息（PII）或账户专属详情（如账单信息、地址）的问答对；
通用性：不得包含不具备通用性、不适用于未来有类似需求客户的问答对（即代理无法在企业知识库中使用该问答对解答新客户问题）；
信息查询属性：不得包含个人问题（如 “你叫什么名字”“你的地址是什么”）、闲聊或建立融洽关系类问答对；
以客户为中心：所选问题必须由客户提出，而非代理；
可理解性：若问题涉及某产品，需在所选问答对中注明产品名称，确保纳入知识库后易于理解；
事实准确：相较于对话上下文，问答对应事实准确。

现提供对话记录及从中提取的问答对列表，请判断哪些问答对符合上述标准，并以 JSON 格式生成答案，包含以下键：

（1）“Total Correct”（正确数量）

（2）“Total Predicted”（预测总数）

（3）“Justification”（理由）

其中，“正确数量” 表示符合标准的问答对数量，“预测总数” 表示提供的问答对总数，“理由” 需说明得出该答案的依据。

对话记录：[通话对话记录]

提取的问题：[问答对列表]

附录 D 示例错误

错误案例：大型语言模型评估者将正确问答对标记为错误

案例 1：

代表性问题：什么是【X 平台】？它具备哪些功能？

代表性答案：【X 平台】是一款用于管理测评流程的数字化平台。用户可通过该平台购买数字化测评服务及测评报告，测评实施方式包括三种：线下组织测评、向客户发送远程完成链接，或手动录入纸质测评的答案以进行数字化评分。该平台通过加密技术保障数据传输安全，并严格遵循安全管理规范。

类型：提取（Extracted）

解释：无（N/A）

案例 2：

代表性问题：客户使用特定测试或在线测评服务时，是否需要单独购买评分报告？

代表性答案：是的，即便采用在线形式，评分报告仍需单独购买。