时间一致性生成式人工智能

1 引言

大型语言模型（LLMs）已成为金融计量经济学领域的变革性力量。近期研究广泛利用大型语言模型的输出结果开展预测与估计任务（例如：洛佩斯 – 利拉与唐，2023；张等人，2023；贾等人，2024；陈等人，2025；吕，2025）。大型语言模型所具备的新颖能力与内在智能，为探索非结构化数据、解决以往未解答的问题提供了可能。

然而，正如萨卡尔与瓦法（2024）以及路德维希等人（2025）所指出的，大多数基于生成式人工智能的预测问题都面临前瞻偏差这一方法学挑战。原因在于，大型语言模型的预训练数据源自海量文本语料库，而这些语料库中包含了与预测任务相关的未来信息。当模型的知识截止时间 <inline_LaTeX_Formula>\tau<\inline_LaTeX_Formula > 超出预测时间时，就会产生前瞻偏差，此时损失函数中会出现训练数据泄露项。

已有多篇文献提出了用于分离时间信息的稳健方法。例如，格拉斯曼与林（2023）以及恩格尔伯格等人（2025）开发了系统性的实体掩码方法，使大型语言模型无法识别企业实体；另有研究人员探索从头开始预训练大型语言模型，通过精心筛选训练数据来控制模型的内在知识（如：萨卡尔，2024；何等人，2025）。

相较于试图让模型遗忘已学知识或通过上下文推断的方法，从头开始预训练大型语言模型似乎是防止模型获取未来知识的更全面解决方案，但该方法的实施面临两大主要挑战：第一，要保证时间一致性，就必须排除大量未来训练文本，这可能会损害模型性能；第二，将该方法（尤其是在模型嵌入与机器学习流程中）整合应用，在技术上具有较高复杂性，且计算成本高昂。

本文为社会科学研究领域提供了另一种更易获取的解决方案：首个无前瞻偏差的指令遵循式聊天模型。具体而言，在预训练与指令微调两个阶段，我们都对数据集进行了精心筛选，以防止模型接触未来知识。例如，ChronoGPT-Instruct<inline_LaTeX_Formula>_{\tau}<\inline_LaTeX_Formula>（其中 < inline_LaTeX_Formula>\tau \in {1999,2000,2001,\dots,2024}<\inline_LaTeX_Formula>）绝不会获取任何在 < inline_LaTeX_Formula>\tau<\inline_LaTeX_Formula > 之后出现或在经济层面变得重要的知识。对于任何 < inline_LaTeX_Formula>\tau<\inline_LaTeX_Formula > 之后的评估集，该模型都能与评估集实现完美的时间隔离。

尽管在开发 ChronoGPT-Instruct 系列模型方面付出了大量努力，但其设计与实现过程中的若干挑战仍需重点说明。在维持稳健的聊天能力与确保严格的时间一致性之间，存在根本性的权衡。例如，参数规模相近的 Qwen-1.5-1.8B-Chat 模型，其预训练数据量达 2.2 万亿个 token，约为我们基准模型所处理 700 亿个 token 的 31 倍。尽管如此，即便是最早版本的 ChronoGPT-Instruct 模型，在 Alpaca 指令遵循评估中的胜率也超过了 12%，这表明尽管受到数据限制，该系列模型仍具备实际应用价值。此外，尽管我们设计的基于提示词的筛选算法效果显著，但我们承认其在理论层面并非完美。不过，在我们开展的严格验证测试中，ChronoGPT-Instruct 模型始终无法预测未来的总统人选或重大事件，未出现任何训练数据泄露的迹象。

该模型的主要贡献在于，为各类预测问题中开展无前瞻偏差的稳健性测试提供了实用工具。我们已在https://huggingface.co/manelalab 网站公开发布了 ChronoGPT-Instruct 系列模型及指令微调数据，以支持研究界的相关研究。尽管 ChronoGPT-Instruct 并未提供同时消除训练数据泄露与保留最先进语言能力的完美解决方案，但它能够确定预测能力的保守下界，助力更清晰地理解模型的真实性能。在我们提供的基于提示词的交易组合案例中，若将 ChronoGPT-Instruct 视为 Qwen-1.5-1.8B-Chat、Llama-3.2-3B-Instruct 等更大规模模型（参数数量最多为其两倍，且训练数据量远大于它）的无前瞻偏差对应模型，我们的研究结果表明，在消除数据泄露后，至少 54% 的新闻回报可预测性仍然存在。夏普比率的剩余差异（如 0.95 与 1.76 之间的差异）可能源于模型能力的差异以及对比模型中存在的前瞻偏差。

2 方法与数据

本节将介绍我们为确保无训练数据泄露而设计的指令微调方法，随后详细说明数据筛选流程，以及用于指令微调与回报预测任务的数据集。

2.1 指令微调

我们的指令微调流程旨在满足路德维希等人（2025）提出的 “无训练数据泄露协议”。该协议明确规定，用于评估模型的任何文本都必须与用于训练模型的文本在统计上相互独立。我们首先在预训练与指令微调（IFT）两阶段框架下重新阐述该协议，然后说明我们的数据筛选流程如何满足协议的各项要求。

两个不相交的训练语料库

设：

<display_LaTeX_Formula>t^{\mathrm{pre}}(\tau)=\left{\sigma\in\Sigma^{}:\operatorname{date}(\sigma)\leq\tau\right},\quad t^{\mathrm{ift}}(\tau)=\left{\sigma\in\Sigma_{\text{inst }}^{}:\operatorname{date}(\sigma)\leq\tau\right},<\display_LaTeX_Formula>

（1）

其中 <inline_LaTeX_Formula>\tau<\inline_LaTeX_Formula > 为我们不同版本模型的知识截止时间。对于任意文本片段 < inline_LaTeX_Formula>r<\inline_LaTeX_Formula>，定义分阶段的指示变量：

<display_LaTeX_Formula>t_{r}^{\mathrm{pre}}=\mathbf{1}\big(r\in t^{\mathrm{pre}}(\tau)\big),\quad t_{r}^{\mathrm{ift}}=\mathbf{1}\big(r\in t^{\mathrm{ift}}(\tau)\big)<\display_LaTeX_Formula>

（2）

并设：

<display_LaTeX_Formula>t_{r}=\max\left{t_{r}^{\mathrm{pre}},t_{r}^{\mathrm{ift}}\right}\in{0,1}<\display_LaTeX_Formula>

（3）

表示文本 <inline_LaTeX_Formula>r<\inline_LaTeX_Formula > 是否属于合并后的训练集。

含泄露项的损失分解

考虑仅包含日期在 <inline_LaTeX_Formula>\tau<\inline_LaTeX_Formula > 之后的文档的评估样本 < inline_LaTeX_Formula>R_{>\tau}<\inline_LaTeX_Formula>，令 < inline_LaTeX_Formula>D_{r}=\mathbf {1}\left (r\in R_{>\tau}\right)<\inline_LaTeX_Formula>。设损失函数为 < inline_LaTeX_Formula>\ell (\cdot,\cdot)<\inline_LaTeX_Formula>，模型预测结果为 < inline_LaTeX_Formula>\hat {m}(r;t)<\inline_LaTeX_Formula>，则 < inline_LaTeX_Formula>\hat {L}{\tau}<\inline_LaTeX_Formula > 的期望可表示为：<display_LaTeX_Formula>E\left[\hat{L}{\tau}\right]=\underbrace{E\left[\ell\left(Y_{r},\hat{m}(r;t)\right)\right]}{\text {真实样本外损失}}-\underbrace {E\left [D{r}\left (\frac {q_{T\mid D}\left (t_{r}\right)}{q_{T}\left (t_{r}\right)}-1\right)\ell\left (Y_{r},\hat {m}(r;t)\right)\right]}_{\text {泄露项 }},<\display_LaTeX_Formula>

（4）

其中：

<display_LaTeX_Formula>q_{T}\left(t_{r}\right)=\operatorname{Pr}\left(t_{r}=1\right),\quad q_{T\mid D}\left(t_{r}\right)=\operatorname{Pr}\left(t_{r}=1\mid D_{r}=1\right)<\display_LaTeX_Formula>

（5）

分别为文本 <inline_LaTeX_Formula>r<\inline_LaTeX_Formula > 出现在训练集中的无条件概率与条件概率。式（4）中的第二个期望即为泄露项；当且仅当：

<display_LaTeX_Formula>\forall r:\frac{q_{T\mid D}\left(t_{r}\right)}{q_{T}\left(t_{r}\right)}=1,<\display_LaTeX_Formula>

（6）

即满足协议的独立性条件时，泄露项才会消失。

分阶段充分性

由于式（3）中的整体指示变量 <inline_LaTeX_Formula>t_{r}<\inline_LaTeX_Formula > 是两个不相交事件的并集，因此，当预训练与指令微调阶段分别满足独立性条件时，整体独立性即可得到保证：

<display_LaTeX_Formula>\forall r:\frac {q_{T\mid D}\left (t_{r}^{\mathrm {pre}}\right)}{q_{T}\left (t_{r}^{\mathrm {pre}}\right)}=1\quad\text { 且 }\quad\frac {q_{T\mid D}\left (t_{r}^{\mathrm {ift}}\right)}{q_{T}\left (t_{r}^{\mathrm {ift}}\right)}=1.<\display_LaTeX_Formula>

（7）

在预训练阶段，我们以何等人（2025）提出的不同版本 ChronoGPT 模型作为基准模型。语料库 <inline_LaTeX_Formula>T_{\tau}^{\text {pre }}<\inline_LaTeX_Formula > 来源于历史网页快照、归档新闻与科学文献。每份文档都带有可验证的发布时间戳，所有日期在 < inline_LaTeX_Formula>\tau<\inline_LaTeX_Formula > 之后的文本都会被剔除。因此，对于知识截止时间之后的任意评估样本 < inline_LaTeX_Formula>r<\inline_LaTeX_Formula>，都有 < inline_LaTeX_Formula>t_{r}^{\text {pre }}=0<\inline_LaTeX_Formula>，进而：

<display_LaTeX_Formula>q_{T}\left(t_{r}^{\mathrm{pre}}\right)=0,\quad q_{T\mid D}\left(t_{r}^{\mathrm{pre}}\right)=0,<\display_LaTeX_Formula>

（8）

式（7）中的第一个等式成立。

在指令微调阶段，我们采用基于提示词的筛选算法。候选的指令 – 响应对会通过大型语言模型分类器进行筛选。该分类器基于 ChatGPT-4.1 实现，接收特定提示词后输出二进制标签，以标识对话中是否包含在 <inline_LaTeX_Formula>\tau<\inline_LaTeX_Formula > 之后出现或在经济层面变得重要的知识。只有标签为 0 的指令 – 响应对才会被纳入 < inline_LaTeX_Formula>t^{\text {ift}}(\tau)<\inline_LaTeX_Formula>。因此，对于截止时间之后的任意评估样本 < inline_LaTeX_Formula>r<\inline_LaTeX_Formula>，都有 < inline_LaTeX_Formula>t_{r}^{\mathrm {ift}}=0<\inline_LaTeX_Formula>，式（7）中的第二个等式同样成立。我们将在 3.2 节对独立性条件进行验证测试。

2.2 数据

本节将介绍用于指令微调的公开用户 – 助手交互数据集，以及用于回报预测的财经新闻专线数据。

2.2.1 指令微调数据

指令微调语料库包含超过 42.5 万个提示词 – 响应对，这些数据来源于三个公开资源，并按认知负荷与序列长度递增的顺序构建成学习课程。首先，我们从拉施卡（2024）的研究中选取简单、短序列的任务，如拼写检查或基础数学运算；随后，加入王等人（2022）数据集中通过 GPT-3 自指令技术生成的中等长度提示词；最后，纳入兰伯特等人（2024）构建的艾伦人工智能研究所（AllenAI）的 Tulu-3 SFT 混合数据集。

所有数据条目均经过以下筛选：（1）剔除非英文记录与代码片段；（2）通过时间知识筛选：每个样本都由 GPT-4.1 进行分类，仅保留分类器给出标签 0（“知识在 2000 年之前可得”）且置信度得分为 10（满分）的样本。表 1 总结了最终形成的数据集。

阶段	SFT 数据来源	样本数量	平均对话长度
1	从头构建的大型语言模型（LLMs-from-scratch）	1,097	102
2	GPT-3 自生成数据	67,136	183
3	Tulu-3 SFT 混合数据集	356,886	2,513

表 1：指令微调数据集

之后，我们将这些数据条目按照 Alpaca 风格的提示词格式整理为 ChronoGPT 的输入数据。以下是传入大型语言模型的样本条目示例：

{

以下是描述某项任务的指令，请撰写响应以恰当完成该请求。

指令：

识别下列单词的正确拼写。

输入：

Ocassion

响应：

正确拼写为 “Occasion”。

}

2.2.2 财经新闻专线数据

我们使用道琼斯新闻专线（Dow Jones Newswire）数据集，该实时新闻专线涵盖 2007 年 1 月至 2023 年 7 月的海量财经市场新闻，包含新闻标题、完整文章文本以及精确的发布时间戳。参考何等人（2025）的方法，我们重点关注企业特定新闻，将每个交易日内与某家企业相关的所有新闻标题进行汇总。最后，我们将这些新闻数据与 CRSP（证券价格研究中心）的 t+1 日收盘价回报数据合并，以研究股票回报的可预测性。

3 结果

3.1 指令遵循能力评估

我们对一系列模型进行了指令微调，形成 ChronoGPT-Instruct-1999、ChronoGPT-Instruct-2005、ChronoGPT-Instruct-2010、ChronoGPT-Instruct-2015、ChronoGPT-Instruct-2020 与 ChronoGPT-Instruct-2024 等版本，每个版本均基于何等人（2025）提出的对应版本 ChronoGPT 模型构建。所有版本均采用标准的掩码交叉熵损失函数进行下一个 token 的预测训练，该损失函数的形式化定义为：

<display_LaTeX_Formula>\mathcal{L}=-\frac{1}{N}\sum_{t=1}^{N}\log p_{\theta}\left(y_{t}\mid\mathbf{x}_{<t}\right),<\display_LaTeX_Formula>

（9）

其中，模型参数 <inline_LaTeX_Formula>\theta<\inline_LaTeX_Formula > 通过优化以最大化在长度为 < inline_LaTeX_Formula>N<\inline_LaTeX_Formula > 的序列中，生成位置 < inline_LaTeX_Formula>t<\inline_LaTeX_Formula > 处真实 token<inline_LaTeX_Formula>y_{t}<\inline_LaTeX_Formula > 的概率 < inline_LaTeX_Formula>p_{\theta}\left (y_{t}\mid\mathbf {x}_{<t}\right)<\inline_LaTeX_Formula>。这一目标函数鼓励模型准确预测响应中的下一个 token。

在每个监督微调（SFT）阶段，我们都会记录 5% 留存数据（从未被优化器接触过）的 token 级交叉熵损失。图 1 展示了三个训练阶段的损失变化情况，呈现出前期快速下降、后期缓慢提升的典型特征。初期损失的急剧下降反映了模型对指令遵循格式的快速适应，而后期阶段则体现了模型通过学习课程顺序持续获取知识的过程。

（图 1：指令微调的训练损失与验证损失

该图展示了 ChronoGPT-1999 模型在三个监督微调（SFT）阶段的训练动态。阶段 1 使用 “从头构建的大型语言模型” 数据集，阶段 2 使用 “GPT-3 自生成” 数据集，阶段 3 使用 “Tulu-3 SFT 混合” 数据集。）

图 2 对比了所有六个版本模型在每个训练阶段的验证损失。与何等人（2025）关于语言模型的研究结果一致，我们观察到从早期版本到后期版本，模型性能呈现系统性提升：1999 版本模型的验证损失最高，而更新版本的模型在三个阶段的损失均更低。

（图 2：各版本指令模型的验证损失

该图对比了六个版本模型（1999 年、2005 年、2010 年、2015 年、2020 年、2024 年）在三个学习课程阶段的验证损失：阶段 1（“从头构建的大型语言模型” 数据集，简单任务）、阶段 2（“GPT-3 自生成” 数据集，中等复杂度任务）、阶段 3（“Tulu-3 混合” 数据集，复杂对话任务）。）

（图 3：ChronoGPT-Instruct 的 Alpaca 评估结果

该图展示了 1999 年至 2024 年各版本模型在长度控制（LC）评估下的头对头胜率。评估数据集来源于 AlpacaFarm，基准模型为 Qwen-1.5-1.8B-Chat。）

验证损失虽能作为有效参考，但它同时包含了语法预测与实际指令遵循能力两方面信息。因此，我们通过与 Qwen-1.5-1.8B-Chat 模型在 Alpaca 长度控制（LC）评估中进行头对头对比，进一步评估模型性能。对于 AlpacaEval 数据集中的每条指令，我们分别生成待评估模型与基准模型的输出结果，然后由自动评估器判断偏好。若胜率为 50%，则表明待评估模型与基准模型性能相当。

图 3 展示了各版本模型的最终胜率：ChronoGPT-Instruct<inline_LaTeX_Formula>_{1999}<\inline_LaTeX_Formula > 的胜率为 12.59%，2005 年版本提升至 13.19%，2010 年版本达 16.21%，2024 年版本以 16.79% 的胜率达到峰值。这一稳步提升表明，更新的训练数据能持续增强模型的指令遵循能力，其中 2024 年版本表现最佳。尽管性能有所提升，但整体胜率仍处于较低水平，这主要是由于预训练数据量的巨大差距：基准模型 Qwen-1.5-1.8B-Chat 的预训练数据量约为我们基准 ChronoGPT 模型的 31 倍。

3.2 时间一致性验证

	选举年份						准确率
	1992	2000	2008	2016	2020	2024	截止前	截止后
正确输出	比尔・克林顿	乔治・W・布什	巴拉克・奥巴马	唐纳德・特朗普	乔・拜登	唐纳德・特朗普
GPT-2	比尔・克林顿	比尔・克林顿	巴拉克・奥巴马	唐纳德・特朗普	乔治・W・布什	乔治・W・布什	3/4	0/2
GPT-2 XL	比尔・克林顿	乔治・W・布什	巴拉克・奥巴马	唐纳德・特朗普	詹姆斯・A・加菲尔德	詹姆斯・马蒂斯	4/4	0/2
Llama-3.2-3B-Instruct	比尔・克林顿	乔治・W・布什	巴拉克・奥巴马	唐纳德・特朗普	乔・拜登	R・（姓名不全）	5/5	0/1
Qwen-1.5-1.8B-Chat	比尔・克林顿	乔治・W・布什	巴拉克・奥巴马	唐纳德・特朗普	乔・拜登	卡玛拉・哈里斯	5/5	0/1
ChronoGPT-Instruct<inline_LaTeX_Formula>_{\text{Realtime}}<\inline_LaTeX_Formula>	—	比尔・克林顿	乔治・W・布什	约翰・F・肯尼迪	elect2019:（无有效姓名）	乔・拜登	—	0/5
ChronoGPT-Instruct<inline_LaTeX_Formula>_{1999}<\inline_LaTeX_Formula>	比尔・克林顿	比尔・克林顿	比尔・克林顿	克林顿 \nT（姓名不全）	奥巴马 \nT（姓名不全）	约翰・F・肯尼迪	1/1	0/5
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2000}<\inline_LaTeX_Formula>	比尔・克林顿	比尔・克林顿	比尔・克林顿	比尔・克林顿	比尔・克林顿	约翰・W・（姓名不全）	1/2	0/4
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2001}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	比尔・克林顿	乔治・W・布什	乔治・W・布什	普京 \nT（非美国总统）	2/2	0/4
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2002}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	比尔・克林顿	乔治・W・布什	乔治・W・布什	乔治・W・布什	2/2	0/4
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2003}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	2/2	0/4
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2004}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	普京 \nT（非美国总统）	2/2	0/4
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2005}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	2/2	0/4
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2006}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	2/2	0/4
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2007}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	2/2	0/4
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2008}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	2/3	0/3
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2009}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	乔治・W・布什	2/3	0/3
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2010}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	巴拉克・奥巴马	巴拉克・奥巴马	比尔・盖茨（非政治家）	比尔・盖茨（非政治家）	3/3	0/3
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2011}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	巴拉克・H・（姓名不全）	约翰・F・肯尼迪	比尔・盖茨（非政治家）	乔治・W・布什	3/3	0/3
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2012}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	巴拉克・奥巴马	巴拉克・奥巴马	比尔・盖茨（非政治家）	乔治・W・布什	3/3	0/3
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2013}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	巴拉克・奥巴马	约翰・F・肯尼迪	比尔・盖茨（非政治家）	乔治・W・布什	3/3	0/3
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2014}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	巴拉克・奥巴马	约翰・F・肯尼迪	乔治・W・布什	乔治・W・布什	3/3	0/3
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2015}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	约翰・F・肯尼迪	乔治・W・布什	乔治・W・布什	2/3	0/3
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2016}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	马丁・路德・金（非总统）	乔治・W・布什	乔治・W・布什	2/4	0/2
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2017}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	唐纳德・特朗普	约翰・F・肯尼迪	约翰・卡西奇（未当选）	3/4	0/2
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2018}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	唐纳德・特朗普	唐纳德・特朗普	乔治・W・布什	3/4	0/2
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2019}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	唐纳德・特朗普	elect2019:（无有效姓名）	约翰・卡西奇（未当选）	3/4	0/2
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2020}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	唐纳德・特朗普	比尔・克林顿	乔治・W・布什	3/5	0/1
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2021}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	唐纳德・特朗普	乔・拜登	乔・拜登	4/5	0/1
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2022}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	唐纳德・特朗普	乔・拜登	乔・拜登	4/5	0/1
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2023}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	唐纳德・特朗普	乔・拜登	乔・拜登	4/5	0/1
ChronoGPT-Instruct<inline_LaTeX_Formula>_{2024}<\inline_LaTeX_Formula>	比尔・克林顿	乔治・W・布什	乔治・W・布什	唐纳德・特朗普	乔・拜登	乔・拜登	4/6	—
ChronoGPT-Instruct<inline_LaTeX_Formula>{1999}<\inline_LaTeX_Formula > 至 ChronoGPT-Instruct<inline_LaTeX_Formula>{2024}<\inline_LaTeX_Formula>							67/83	0/73

表 2：ChronoGPT-Instruct 对美国总统的下一个 token 预测

该表展示了 ChronoGPT-Instruct 模型对提示词的下一个 token 预测结果，提示词格式为 “列出美国新任总统及其前三任总统”，模型需预测序列中最后一个缺失项 —— 最新任总统的姓名。输入提示词结构如下：

“美国历任总统（按时间顺序）：

{year<inline_LaTeX_Formula>{p-3}+1<\inline_LaTeX_Formula>} 年就职：{name<inline_LaTeX_Formula>{p-3}<\inline_LaTeX_Formula>} 总统

{year<inline_LaTeX_Formula>{p-2}+1<\inline_LaTeX_Formula>} 年就职：{name<inline_LaTeX_Formula>{p-2}<\inline_LaTeX_Formula>} 总统

{year<inline_LaTeX_Formula>{p-1}+1<\inline_LaTeX_Formula>} 年就职：{name<inline_LaTeX_Formula>{p-1}<\inline_LaTeX_Formula>} 总统

{year<inline_LaTeX_Formula>_{p}+1<\inline_LaTeX_Formula>} 年就职：总统

”

表中呈现了 ChronoGPT-Instruct 系列各版本模型的预测结果，每个预测结果包含恰好两个 token，通过确定性选择每个步骤中概率最高的 token 生成。灰色阴影部分表示提示词涉及模型知识截止时间之后的年份（包括总统当选但尚未就职的选举年份）。蓝色高亮部分为正确预测结果。为作对比，表中还包含了 GPT-2、GPT-2 XL（2019 年发布）、Llama-3.2-3B-Instruct（2023 年发布）与 Qwen-1.5-1.8B-Chat（2024 年发布）的输出结果。

|——–|———-|————| |———-|

| 面板 A：输入提示词 | 2001 | 《萨班斯 – 奥克斯利法案》是为应对 2001 年安然公司的____而出台的 | | 丑闻 |

| | 2008 | 2008 年，全球经济受____主导（指次贷相关事件） | | 危机 |

| | 2020 | 2020 年，全球经济因名为 “” 的健康危机遭受重创 | | 新冠（COVID/coronavirus） || | 2022 | 2022 年，生成式人工智能的重要里程碑是名为 “” 的人工智能聊天机器人的发布 | | ChatGPT |

| | 事件年份 | | | | | | | 准确率 | |

| 面板 B：输出预测 | 2001 | 2003 | 2008 | 2016 | 2020 | 2022 | | 截止前 | 截止后 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{\text {Realtime}}<\inline_LaTeX_Formula> | 法案（ment Act，语义不完整） | “H（内容不完整） | 市场，其中（含标点） | -Elli（内容不完整） | 甲型 H1N1 流感（H1N，非正确事件） | “人工智能助手”（AI Assistant，非特定产品） | | — | 0/6 || ChronoGPT-Instruct<inline_LaTeX_Formula>{1999}<\inline_LaTeX_Formula> | 法案（ies Act，语义不完整） | “V（内容不完整） | 市场，其中（含标点） | 。市场（含标点） | 世界卫生组织（非事件名称） | “聊天机器人”（Chatbot，非特定产品） | | — | 0/6 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2000}<\inline_LaTeX_Formula> | 法案（ment Act，语义不完整） | 埃博拉病毒（非 2003 年事件） | 市场，其中（含标点） | 。市场（含标点） | “亚洲金融危机”（Asian Crisis，事件年份错误） | “聊天机器人”（Chatbot，非特定产品） | | — | 0/6 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2001}<\inline_LaTeX_Formula> | 危机（ment Crisis in，语义不完整） | “亚洲（内容不完整） | 市场，其中（含标点） | 。（仅标点） | “亚洲流感”（Asian flu，非正确事件） | 聊天机器人（The Chatbot，非特定产品） | | 0/1 | 0/5 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2002}<\inline_LaTeX_Formula> | 丑闻。（含标点） | “H（内容不完整） | 市场，其中（含标点） | 。市场（含标点） | “亚洲流感”（Asian flu，非正确事件） | 人工智能 – 1（AI-1，非真实产品） | | 1/1 | 0/5 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2003}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（the SARS） | 市场，其中（含标点） | 投票（vote，语义不完整） | “亚洲流感”（Asian flu，非正确事件） | “聊天机器人”（Chatbot，非特定产品）。（含标点） | | 2/2 | 0/4 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2004}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（SARS），（含标点） | 市场，其中（含标点） | 髋关节（hip，语义无关） | “亚洲流感”（Asian flu，非正确事件） | “聊天机器人”（Chatbot，非特定产品）。（含标点） | | 2/2 | 0/4 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2005}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（SARS），（含标点） | 市场，其中（含标点） | 。（仅标点） | “亚洲流感”（Asian flu，非正确事件） | “聊天机器人”（Chatbot，非特定产品）。（含标点） | | 2/2 | 0/4 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2006}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（SARS）。（含标点） | 市场，其中（含标点） | 。（仅标点） | “亚洲流感”（Asian flu，非正确事件） | “聊天机器人”（Chatbot，非特定产品）。（含标点） | | 2/2 | 0/4 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2007}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（SARS），（含标点） | 市场，其中（含标点） | 。（仅标点） | “亚洲流感”（Asian flu，非正确事件） | “聊天机器人”（Chatbot，非特定产品）。（含标点） | | 2/2 | 0/4 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2008}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（the SARS） | 危机，其中（含标点） | 。（仅标点） | “亚洲流感”（Asian flu，非正确事件） | “聊天机器人”（Chatbot，非特定产品）。（含标点） | | 3/3 | 0/3 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2009}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（the SARS） | 危机，其中（含标点） | 。（仅标点） | “非典”（SARS，事件年份错误） | “聊天机器人”（Chatbot，非特定产品）。（含标点） | | 3/3 | 0/3 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2010}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（the SARS） | 危机，其中（含标点） | 投票（vote，语义不完整） | “西班牙流感”（Spanish flu，非正确事件） | 语言模型（The Language Model，非特定产品） | | 3/3 | 0/3 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2011}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（the SARS） | 危机，其中（含标点） | 投票（vote，语义不完整） | “亚洲流感”（Asian flu，非正确事件） | 语言模型（The Language Model，非特定产品） | | 3/3 | 0/3 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2012}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（the SARS） | 危机，其中（含标点） | 投票（vote，语义不完整） | “亚洲流感”（Asian flu，非正确事件） | 语言模型（The Language Model，非特定产品） | | 3/3 | 0/3 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2013}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（the SARS） | 危机，其中（含标点） | 投票。（含标点） | “亚洲流感”（Asian flu，非正确事件） | 图灵测试（The Turing Test，非产品） | | 3/3 | 0/3 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2014}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（the SARS） | 危机，其中（含标点） | 年度（of the year，语义不完整） | “西班牙流感”（Spanish flu，非正确事件） | 图灵测试（The Turing Test，非产品） | | 3/3 | 0/3 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2015}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（the SARS） | 危机，其中（含标点） | -Elli（内容不完整） | “西班牙流感”（Spanish flu，非正确事件） | 人工智能语言模型（AI Language Model，非特定产品） | | 3/3 | 0/3 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2016}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（the SARS） | 危机，其中（含标点） | 。欧盟（含标点） | “亚洲流感”（Asian flu，非正确事件） | 聊天机器人（The Chatbot，非特定产品） | | 3/4 | 0/2 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2017}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（the SARS） | 危机，其中（含标点） | 公投。（含标点） | “亚洲流感”（Asian flu，非正确事件） | 聊天机器人（The Chatbot，非特定产品） | | 4/4 | 0/2 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2018}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（the SARS） | 危机，其中（含标点） | 公投。（含标点） | “亚洲流感”（Asian flu，非正确事件） | 聊天机器人（The Chatbot，非特定产品） | | 4/4 | 0/2 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2019}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（the SARS） | 危机，其中（含标点） | 公投。（含标点） | 甲型 H1N1 流感（H1N，非正确事件） | 聊天机器人（The Chatbot，非特定产品） | | 4/4 | 0/2 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2020}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（SARS-，内容不完整） | 危机，其中（含标点） | 公投。（含标点） | “西班牙流感”（Spanish flu，非正确事件） | 人工智能语言模型（AI Language Model，非特定产品） | | 4/5 | 0/1 || ChronoGPT-Instruct<inline_LaTeX_Formula>{2021}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（SARS in，内容不完整） | 危机，其中（含标点） | 公投。（含标点） | 新冠（coronav，拼写不完整） | “人工智能助手”（AI Assistant，非特定产品） | | 5/5 | 0/1 |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2022}<\inline_LaTeX_Formula> | 公司倒闭（Corporation collapse，语义不完整） | 非典（the SARS） | 危机，其中（含标点） | 公投。（含标点） | 新冠（coronav，拼写不完整） | “人工智能助手”（AI Assistant，非特定产品） | | 5/6 | — || ChronoGPT-Instruct<inline_LaTeX_Formula>{2023}<\inline_LaTeX_Formula> | 丑闻，其中（含标点） | 非典（SARS），（含标点） | 危机，其中（含标点） | 公投。（含标点） | 新冠（coronav，拼写不完整） | ChatGPT | | 6/6 | — |

| ChronoGPT-Instruct<inline_LaTeX_Formula>{2024}<\inline_LaTeX_Formula> | 丑闻。（含标点） | 非典（SARS），（含标点） | 危机，其中（含标点） | 公投。（含标点） | 新冠（COVID-，拼写不完整） | ChatGPT | | 6/6 | — || ChronoGPT-Instruct<inline_LaTeX_Formula>{1999}<\inline_LaTeX_Formula > 至 ChronoGPT-Instruct<inline_LaTeX_Formula>_{2024}<\inline_LaTeX_Formula> | | | | | | | | 76/80 | 0/76 |

表 3：ChronoGPT-Instruct 对重大事件的下一个 token 预测

该表展示了 ChronoGPT-Instruct 模型对描述不同年份重大历史事件的提示词的下一个 token 预测结果。面板 A 列出了每个事件对应的输入提示词，面板 B 呈现了 ChronoGPT-Instruct 系列各版本模型的预测结果。每个预测结果包含恰好三个 token，通过确定性选择每个步骤中概率最高的 token 生成。灰色阴影部分表示提示词涉及模型知识截止时间之后的事件。蓝色高亮部分为正确预测结果。为作对比，表中还包含了 GPT-2、GPT-2 XL（2019 年发布）、Llama-3.2-3B-Instruct（2023 年发布）与 Qwen-1.5-1.8B-Chat（2024 年发布）的输出结果。

尽管我们在筛选训练数据时格外谨慎，确保仅纳入特定日期前可得的信息，但这一过程仍可能存在误差。误差可能来源于预训练数据集或微调数据集：在预训练数据中，出版物日期记录可能存在不准确（例如，印刷资料通过光学字符识别（OCR）数字化时，可能被分配错误的时间戳），导致本不应在指定时间可得的信息被意外纳入；在微调阶段，分类过程由 GPT-4.1 完成，其可能误判某些提示词 – 响应对所反映的知识是否来自 2000 年之前。这些问题都可能导致前瞻偏差，使模型意外接触到在指定训练截止时间后才应出现的信息。

对于预训练数据集，何等人（2025）通过涉及美国历任总统与不同年份重大事件的文本序列，测试了 ChronoGPT 系列模型的泄露情况，未发现任何泄露证据。在本节中，我们针对 ChronoGPT-Instruct 模型重复了这一验证实验，以检验指令微调过程是否引入了额外的泄露。

表 2 呈现了针对美国总统预测的测试结果，表 3 呈现了针对重大事件预测的测试结果。两张表中，右上角灰色阴影区域代表知识截止时间之后的预测结果，右下角非阴影区域代表知识截止时间之前的预测结果，蓝色高亮部分为正确预测。

在每个 ChronoGPT-Instruct 版本模型的知识范围内，该系列模型在总统预测测试中正确预测了 67/83 个样本，在重大事件预测测试中正确预测了 76/80 个样本。知识截止时间之前的高准确率，体现了 ChronoGPT-Instruct 模型知识的质量与时间相关性。相反，在灰色阴影所示的截止时间之后的预测中，所有 ChronoGPT-Instruct 模型均未能正确预测任何未来总统人选或重大事件。总体而言，这些结果验证了用于训练或微调我们时间一致性模型的文本数据中，不存在任何泄露迹象。

3.3 基于提示词的交易组合

何等人（2025）的研究指出，参考陈等人（2023）的方法，ChronoGPT 可通过嵌入生成具有盈利潜力的信号，但基于时间一致性模型的直接提示词能否实现类似效果，仍是一个待解问题。洛佩斯 – 利拉与唐（2023）的研究表明，在模型知识截止时间后的有限时间段内，通过提示词引导大型语言模型生成交易信号，可在不引入前瞻偏差的前提下实现稳健效果。借助 ChronoGPT-Instruct 模型，我们将这一研究方向拓展至更长的时间范围（2007 年 1 月至 2023 年 7 月），开展基于提示词的投资组合构建研究。

为实施该研究，我们参考洛佩斯 – 利拉与唐（2023）的方法，对所有有新闻覆盖的股票，在 “股票 – 交易日” 层面的财经新闻标题应用以下提示词：

{ ### 指令：

将该新闻标题对公司股票价格的影响归类为 “有利”（FAVORABLE）、“不利”（UNFAVORABLE）或 “不确定”（UNCLEAR）。

输入：

{新闻标题}

响应： }

随后，我们根据大型语言模型的响应结果构建投资组合：根据模型生成的第一个单词，将股票归入 “有利新闻组合”（<inline_LaTeX_Formula>H<\inline_LaTeX_Formula>）或 “不利新闻组合”（<inline_LaTeX_Formula>L<\inline_LaTeX_Formula>）；若第一个单词既非 “有利”（favorable）也非 “不利”（unfavorable），则将股票归入 “不确定组合”。通过做多 “有利新闻组合”、做空 “不利新闻组合”，构建多空组合（<inline_LaTeX_Formula>H-L<\inline_LaTeX_Formula>）。

我们基于 ChronoGPT-Instruct<inline_LaTeX_Formula>_{\text {Realtime}}<\inline_LaTeX_Formula > 模型评估该策略的效果，该模型的训练与微调完全基于预测年份之前的数据，不存在前瞻偏差。为作对比，我们还纳入了 Qwen-1.5-1.8B-Chat、Llama-3.2-3B-Instruct 与 Llama-3.2-1B-Instruct 模型的结果。其中，与 ChronoGPT-Instruct 参数规模最接近的是 Qwen-1.5-1.8B-Chat 模型，其参数数量比前者多 20%；规模更大的 Llama-3.2-3B-Instruct 模型，参数数量为前者的两倍。这两个对比模型的训练数据量均远大于 ChronoGPT-Instruct。

	ChronoGPT-Instruct<inline_LaTeX_Formula>_{\text{Realtime}}<\inline_LaTeX_Formula>			Qwen-1.5-1.8B-Chat
	均值（Mean）	标准差（SD）	夏普比率（SR）	均值（Mean）	标准差（SD）	夏普比率（SR）
不利组合（<inline_LaTeX_Formula>L<\inline_LaTeX_Formula>）	1.35	24.53	0.05	-1.67	25.90	-0.06
不确定组合	0.14	29.03	0.00	7.20	78.95	0.09
有利组合（<inline_LaTeX_Formula>H<\inline_LaTeX_Formula>）	9.51	23.33	0.41	10.55	22.72	0.46
多空组合（<inline_LaTeX_Formula>H-L<\inline_LaTeX_Formula>）	8.17	8.63	0.95	12.21	8.00	1.53
	Llama-3.2-3B-Instruct			Llama-3.2-1B-Instruct
	均值（Mean）	标准差（SD）	夏普比率（SR）	均值（Mean）	标准差（SD）	夏普比率（SR）
不利组合（<inline_LaTeX_Formula>L<\inline_LaTeX_Formula>）	-1.11	25.68	-0.04	4.67	23.64	0.20
不确定组合	6.71	23.17	0.29	14.01	23.04	0.61
有利组合（<inline_LaTeX_Formula>H<\inline_LaTeX_Formula>）	13.46	23.31	0.58	7.31	23.91	0.31
多空组合（<inline_LaTeX_Formula>H-L<\inline_LaTeX_Formula>）	14.58	8.31	1.76	2.64	6.91	0.38

表 4：基于提示词的交易组合绩效

该表呈现了根据大型语言模型对新闻标题的分类结果（有利新闻 <inline_LaTeX_Formula>H<\inline_LaTeX_Formula>、不利新闻 < inline_LaTeX_Formula>L<\inline_LaTeX_Formula>、不确定）构建的投资组合的年化绩效指标（平均回报、标准差、夏普比率）。“<inline_LaTeX_Formula>H-L<\inline_LaTeX_Formula>” 行代表做多 “有利新闻组合”（<inline_LaTeX_Formula>H<\inline_LaTeX_Formula>）、做空 “不利新闻组合”（<inline_LaTeX_Formula>L<\inline_LaTeX_Formula>）的策略。除夏普比率外，所有数值单位均为百分点。所有投资组合均采用等权重配置，并每日重新平衡。数据时间跨度为 2007 年 1 月至 2023 年 7 月。

（图 4：不同版本 ChronoGPT-Instruct 模型的投资组合绩效

该图展示了使用 ChronoGPT-Instruct 各版本模型预测结果构建的多空组合的夏普比率，x 轴为各模型预训练所用文本数据的截止时间点。蓝色虚线代表 ChronoGPT-Instruct<inline_LaTeX_Formula>_{\text {Realtime}}<\inline_LaTeX_Formula > 模型的绩效，该模型采用预测年份前一年的版本。阴影区域代表 95% 置信区间。）

表 4 呈现了基于提示词的交易组合的绩效结果：实时版本（ChronoGPT-Instruct<inline_LaTeX_Formula>_{\text {Realtime}}<\inline_LaTeX_Formula>）的夏普比率为 0.95，优于 Llama-3.2-1B-Instruct 模型，但不及规模更大的 Qwen-1.5-1.8B-Chat 与 Llama-3.2-3B-Instruct 模型。

若时间一致性模型与非一致性模型在架构和训练过程上一致，那么两者回报绩效的一致性将表明，非一致性模型的可预测性并非依赖于数据泄露。在本研究场景中，回报可预测性受两大因素影响：一是语言能力（通常随参数数量与训练 token 数量增加而提升），二是前瞻偏差。由于 ChronoGPT-Instruct 模型规模更小、训练数据量更少，其绩效可作为无泄露情况下预测能力的保守下界。将 ChronoGPT-Instruct<inline_LaTeX_Formula>_{\text {Realtime}}<\inline_LaTeX_Formula > 的夏普比率（0.95）与 Qwen-1.5-1.8B-Chat（1.53）、Llama-3.2-3B-Instruct（1.76）的夏普比率对比可知，在消除数据泄露后，至少 54% 至 62% 的表观回报可预测性仍然存在。夏普比率的剩余差距（如 0.95 与 1.76 之间的差距）可能源于模型能力的差异以及对比模型中存在的前瞻偏差。

何等人（2025）提出了一个关键问题：尽管后期版本的模型因训练数据量增加而具备更及时的知识与更强的语言理解能力，但这是否能转化为经济收益？为验证这一点，他们评估了全系列时间一致性模型的交易绩效。我们使用这些模型的指令微调版本开展的分析显示，图 4 中呈现的绩效模式与他们提出的 “包络” 现象一致。

“包络” 模式的主要原因有两点：首先，结果表明前瞻偏差的影响程度温和。若存在显著的前瞻偏差，拥有最全面知识的最新版本模型应在所有时期都表现最佳，但实际情况并非如此，这说明其 “未来知识” 并未为过去数据的预测带来不公平优势。其次，对本任务而言更关键的是，知识与通用语言能力的进一步提升仅能带来边际价值。即使是最早版本的模型也能实现较强绩效，这表明绩效前沿的达到相对迅速。其中一个关键因素是时间对齐 —— 模型对自身所处时代的特定语言、词汇与市场叙事的适配性。例如，“迷因股”（meme stocks）或 “供应链中断”（supply-chain disruptions）等表述具有时代特定含义，若以未来视角解读这些表述，可能导致信号错位，降低预测准确性。

然而，我们的结果中存在一个显著差异：实时版本模型与其他版本模型的绩效差距，小于原始研究中的差距。尽管实时版本模型的绩效仍高于平均水平，但其优势已有所减弱。

我们推测，这种效应减弱源于所有版本模型都经历的指令微调（IFT）过程。由于指令微调数据集的时间范围固定在 2000 年之前，所有模型可能都降低了与各自预训练时代的时间对齐程度。通过对每个版本模型都进行单一静态历史时期语言模式的微调，预训练阶段习得的独特时间特征可能被稀释。这种对过去语言风格的 “锚定”，可能削弱了实时版本模型的独特优势，从而缩小了不同版本模型之间的绩效差异。

4 结论

为解决大型语言模型预测中的前瞻偏差问题，我们发布了首个训练语料库具有明确时间戳的时间一致性指令遵循式语言模型。例如，ChronoGPT-Instruct<inline_LaTeX_Formula>_{1999}<\inline_LaTeX_Formula > 模型的训练与后续指令微调，均仅使用 1999 年之前可得的文本数据，为研究人员提供了超过 20 年的真实样本外评估期。

尽管我们承认，时间限制必然导致该系列模型的绩效低于当代其他模型，但 ChronoGPT-Instruct 模型为量化前瞻偏差提供了保守下界。衡量前瞻偏差程度的一种实用方法，是将 ChronoGPT-Instruct 与规模相近但时间不一致的模型（如 Qwen-1.5-1.8B-Chat 或 Llama-3.2-3B-Instruct）进行对比。我们的目标并非实现最先进的绩效，而是为各类基于提示词的预测任务提供一款易于使用、可复现的基准工具，以量化前瞻偏差。

文章来源：https://arxiv.org/html/2510.11677v1