仅花 100 美元、4 小时！普通人也能造 ChatGPT

当科技巨头们斥资数亿美元研发大语言模型时，前特斯拉 AI 总监、OpenAI 创始成员卡帕西却另辟蹊径。近日，他推出开源项目 “nanochat”，迅速在技术社区引发热潮，截至目前，该项目在 GitHub 上已收获 9000 颗星，fork 数达 783 次。

卡帕西将 nanochat 称作 “最疯狂的代码之一”，并承诺只需 100 美元成本和 4 小时训练时间，任何人都能从零开始搭建属于自己的 ChatGPT 级别聊天机器人。与他此前专注模型预训练阶段、可帮助开发者了解 LLM 实现原理的 nanoGPT 不同，nanochat 是一套完整的全栈解决方案。

在单个约 8000 行代码的仓库中，nanochat 实现了从数据准备、模型预训练、对齐微调到推理部署的全流程。其设计理念十分友好，使用者只需启动一台云 GPU 服务器，运行单个脚本，约 4 小时后就能在 ChatGPT 风格的网页界面上，与自己训练的大模型对话，这种端到端体验能让初学者直观掌握大模型构建的全过程。

从实际效果来看，100 美元成本对应的是在 8 张 H100 GPU 上训练 4 小时，产出的机器人可进行基础对话、创作简单故事与诗歌，还能回答简单问题。若将训练时间延长至 12 小时，模型在 CORE 指标上的表现就能超越 GPT-2；若把预算提升到 1000 美元，训练约 41.6 小时，模型能力会显著增强，可解决基础数学和代码问题，还能通过多项选择题测试。

nanochat 能实现低成本目标，关键在于精细的技术设计与流程优化。它采用全新的 Rust 实现训练分词器，在 FineWeb 数据集上预训练 Transformer 架构的大语言模型，项目中还包含指令微调、强化学习训练以及高效的推理引擎。

不过，nanochat 的价值远不止于低成本，其教育意义更为突出。它完整展示了构建聊天机器人的每一步，包括数据准备、分词器训练、模型预训练、对齐微调、强化学习和最终的推理部署。而且项目会自动生成 Markdown 格式的评分报告卡，用游戏化方式总结训练过程，让学习者清晰了解各阶段成果与模型表现。

值得一提的是，卡帕西明确表示 nanochat 将成为他正在开发的 LLM101n 课程的压轴项目，这也体现出项目浓厚的教育基因 —— 并非为了打造最强大的模型，而是为学习者提供最清晰的学习路径。在开发过程中，卡帕西基本全手写代码，他曾尝试使用 Claude 或 Codex 等 AI 编程助手，但因项目代码库结构偏离这些助手的训练数据分布，效果不佳。

同时，卡帕西也坦诚指出了项目的局限性。他将 nanochat 训练出的微型模型比作 “幼儿园小朋友”，认为它们不具备大型模型的原生智能。若要实现真正的个性化模型，需准备原始数据、大量生成和重写合成数据，再用当前较强的开源大模型进行微调，同时混入大量预训练数据以防模型丢失通用智能，而这一领域目前仍处于研究阶段。

nanochat 的诞生，标志着大语言模型技术正从尖端研究向普及教育转变。当科技巨头专注于千亿参数规模、训练成本数百万美元的模型时，nanochat 反其道而行，将大模型开发门槛降到普通开发者和学生可承受的范围。这种以小见大的方式，不仅降低了学习门槛，还为理解大模型核心原理提供了宝贵机会。对众多学习者而言，亲手训练小型模型比调用庞大模型的 API，更能带来深刻的洞察与理解。未来，AI 教育有望变得更加平等开放，更多开发者将借助这类工具进入 AI 领域，推动整个行业持续发展。

我可以基于原文信息，为你生成一份 nanochat 项目的技术要点梳理表，清晰呈现其核心技术、成本与效果对应关系、教育价值等关键内容，需要吗？

文章来源：https://juejin.cn/post/7560914346634838051

相关文章

AI Agent 泡沫：喧嚣之下，谁在裸泳？

ChatGPT “成人模式” 将至：成年人的 “自由”，藏着多少隐忧？

OpenAI：以 ChatGPT 为核，搭建 AI 时代的 “超级系统”