引言

如今,大多数使用人工智能编码助手的用户都会依赖 Claude Code、GitHub Copilot、Cursor 等云基工具。这些工具固然功能强大,但其中隐藏着一个巨大的取舍问题:要使用这些工具,就必须将代码发送到第三方服务器。

这意味着,在你获得工具返回的结果之前,每一个函数、每一个应用程序接口密钥、每一项内部架构设计方案,都会被传输至 Anthropic、OpenAI 等服务提供商手中。即便这些平台承诺保障隐私安全,许多团队仍无法承担这种风险。尤其是在处理以下工作内容时,风险更为突出:

  • 专有或机密代码库
  • 企业客户系统
  • 科研或政府相关工作任务
  • 任何受保密协议(NDA)约束的项目

而本地开源编码模型的出现,彻底改变了这一局面。

在本地运行人工智能模型,能让你拥有绝对的控制权、隐私保障和安全防护。代码不会离开你的设备,不存在外部日志记录,更无需轻信平台的 “口头承诺”。此外,若你已配备高性能硬件,还能节省数千美元的接口调用费用与订阅费用。

本文将详细介绍 7 款开源可调整权重的人工智能编码模型,这些模型在各类编码基准测试中始终名列前茅,正迅速成为专有工具的可靠替代品。

若你需要快速了解核心信息,可直接跳转至文末查看这 7 款模型的对比总表。

1. 月之暗面人工智能 – Kimi-K2-Thinking

Kimi-K2-Thinking 是由月之暗面人工智能研发的先进开源推理模型,其定位是一款具备工具调用能力的智能体,能够在动态调用函数与服务的过程中逐步推理。该模型可在 200 – 300 次连续工具调用中保持稳定的长程任务执行能力,相较于早期系统仅能支撑 30 – 50 次调用就出现性能下滑的情况,实现了重大突破。这一特性使其能够在科研、编码和写作等场景中自主完成全流程工作。

在架构方面,K2 推理模型的总参数规模达 1 万亿,其中激活参数为 320 亿。该模型包含 384 个专家网络(每个令牌选取 8 个专家网络,含 1 个共享专家网络)、61 层网络结构(含 1 个密集层),并具备 7168 维注意力维度与 64 个注意力头。它采用 MLA 注意力机制和 SwiGLU 激活函数,支持 25.6 万个令牌的上下文窗口,词汇量达 16 万个。作为原生 INT4 模型,它通过训练后量化感知训练(QAT),在低延迟模式下速度提升约 2 倍,同时降低了图形处理器内存占用量。

在基准测试中,K2 推理模型表现亮眼,尤其在需要长程推理和工具调用的场景中优势显著。其编码性能均衡,在经验证的软件工程师基准测试(SWE – bench Verified)中得分 71.3,多语言软件工程师基准测试(Multi – SWE)中得分 41.9,科学编码基准测试(SciCode)中得分 44.8,终端基准测试(Terminal – Bench)中得分 47.1。而在 V6 版实时编码基准测试(LiveCodeBench V6)中,该模型更是斩获 83.1 分的高分,充分展现出在多语言编码和智能体工作流场景中的强劲实力。

2. 迷你 – max 人工智能 – MiniMax – M2

MiniMax – M2 重新定义了智能体工作流的运行效率。这是一款紧凑、快速且经济高效的混合专家模型(MoE),总参数规模为 2300 亿,而每个令牌仅激活 100 亿参数。通过精准调用相关性最高的专家网络,MiniMax – M2 在实现与大型模型相当的端到端工具调用性能的同时,大幅降低了延迟、成本和内存消耗,非常适用于交互式智能体和批量采样场景。

该模型专为高端编码任务和智能体任务设计,在保障通用智能性能不打折扣的前提下,聚焦于 “规划→执行→验证” 的闭环工作流程。得益于仅 100 亿的激活参数规模,这一闭环流程能够始终保持高效响应。

在实际编码和智能体基准测试中,MiniMax – M2 展现出极强的实用价值:软件工程师基准测试(SWE – bench)得分 69.4,多语言软件工程师基准测试(Multi – SWE – Bench)得分 36.2,多语言软件工程师基准测试(SWE – bench Multilingual)得分 56.5,终端基准测试(Terminal – Bench)得分 46.3,工件基准测试(ArtifactsBench)得分 66.8。在网页和科研智能体测试中,其表现同样出色:浏览基准测试(BrowseComp)得分 44(中文场景下得分 48.5)、文本类盖亚基准测试(GAIA)得分 75.7、深度搜索基准测试(xbench – DeepSearch)得分 72、τ² 基准测试得分 77.2、工具辅助人类终极测试(HLE)得分 31.8、全球金融搜索基准测试(FinSearchComp – global)得分 65.5。

3. 开放人工智能 – GPT – OSS – 120B

GPT – OSS – 120B 是一款面向生产环境的开源混合专家模型,适用于通用型高难度推理任务。该模型经过优化,可在单块 80GB 显存的图形处理器上运行,总参数达 1170 亿,每个令牌激活 51 亿参数。

GPT – OSS – 120B 具备多项核心能力,包括可配置的推理强度调节(低、中、高三个等级)、供调试使用的完整思维链查看功能(不对终端用户开放)、原生支持函数调用、网页浏览、Python 集成和结构化输出等智能体工具,同时还提供全面的微调支持。此外,针对对延迟要求较低且需适配本地或特定场景的用户,该模型还推出了参数规模更小的配套版本。

在外部基准测试中,GPT – OSS – 120B 在人工智能分析智能指数榜单中位列第三。根据人工智能分析机构对各模型质量、输出速度和延迟的综合对比,该模型在同参数规模的模型中,拥有顶尖的性能和运行速度。在编程竞赛(Codeforces)、通用问题解决(MMLU、HLE)和工具使用(TauBench)等场景中,GPT – OSS – 120B 的表现优于 o3 – mini,且持平甚至超越 o4 – mini;在健康评估基准测试(HealthBench)以及 2024 – 2025 年美国数学邀请赛(AIME)等竞赛数学场景中,其性能更是超过了 o4 – mini。

4. 深度求索人工智能 – DeepSeek – V3.2 – Exp

DeepSeek – V3.2 – Exp 是深度求索人工智能在新一代架构研发过程中的实验性过渡版本。该模型以 V3.1 – Terminus 版本为基础,创新引入了深度求索稀疏注意力机制(DSA)。这一精细化的稀疏注意力机制,旨在提升长上下文场景下模型的训练和推理效率。

该版本的核心研发目标是验证在长序列任务中的效率提升效果,同时确保模型性能稳定。为了精准评估深度求索稀疏注意力机制(DSA)的实际影响,研发团队特意将其训练配置与 V3.1 版本保持一致。测试结果显示,该模型的输出质量与 V3.1 – Terminus 版本几乎持平。

在公开基准测试中,V3.2 – Exp 版本的整体表现与 V3.1 – Terminus 版本相近,仅在部分测试中出现小幅波动:在 MMLU – Pro 基准测试中均得 85.0 分;在实时编码基准测试(LiveCodeBench)中得分约 74,与前代基本持平;在通用 – purpose 问答基准测试(GPQA)中得 79.9 分(前代 80.7 分),在人类终极测试(HLE)中得 19.8 分(前代 21.7 分)。此外,该版本在 2025 年美国数学邀请赛(AIME 2025)和编程竞赛(Codeforces)中取得了小幅进步,分别从 88.4 分提升至 89.3 分,从 2046 分提升至 2121 分。

5. 智谱人工智能 – GLM – 4.6

相较于 GLM – 4.5 版本,GLM – 4.6 将上下文窗口从 12.8 万个令牌扩展至 20 万个令牌。这一升级使得模型能够处理更复杂的长程工作流,且不会出现信息丢失的情况。

GLM – 4.6 的编码性能也实现了质的飞跃,在各类编码基准测试中得分显著提升。在 Claude Code、Cline、Roo Code、Kilo Code 等工具的实际应用中表现出色,尤其在前端代码生成方面更为精细。

此外,GLM – 4.6 新增了推理过程中的工具调用高级推理能力,进一步提升了整体性能。该版本的智能体工具调用能力和搜索智能体性能均得到增强,并且与智能体框架的融合更加紧密。

在涵盖智能体、推理和编码三大领域的八项公开基准测试中,GLM – 4.6 相较于 GLM – 4.5 有明显提升,同时相较于深度求索 V3.1 – Terminus、Claude Sonnet 4 等模型,仍保持着竞争优势。

6. 阿里云 – 通义千问 3 – 235B – A22B – Instruct – 2507

Qwen3 – 235B – A22B – Instruct – 2507 是阿里云旗舰模型的非推理版本,专为实际应用场景设计,不会对外暴露推理过程。该模型在通用能力方面实现了大幅升级,涵盖指令遵循、逻辑推理、数学运算、科学研究、代码编写和工具使用等多个领域。同时,它在多语言长尾知识方面取得了重大突破,在主观开放式任务中,对用户偏好的适配度也显著提升。

作为非推理模型,其核心目标是直接生成精准答案,而非展示推理过程,致力于在日常工作流中提供实用且高质量的文本内容。

第三方测试报告显示,在智能体、推理和编码相关的公开评估中,该模型相比前代版本有明显进步,并且相较于 Kimi – K2、DeepSeek – V3 – 0324、Claude – Opus4 – 非推理版等主流开源和专有模型,仍具备较强的竞争优势。

7. 服务当下人工智能 – Apriel – 1.5 – 15B – Thinker

Apriel – 1.5 – 15B – Thinker 是服务当下人工智能(ServiceNow AI)推出的阿普里尔小型语言模型系列中的多模态推理模型。该模型在原有文本模型的基础上,新增了图像推理能力。其训练过程极具特色,经过了大规模的文本和图像持续预训练,随后仅进行文本监督微调(SFT),未开展图像监督微调或强化学习。尽管该模型参数规模仅为 150 亿,可在单块图形处理器上运行,但上下文窗口长度约达 13.1 万个令牌。该模型的研发目标是在推理任务中,实现与参数规模约为自身十倍的大型模型相当的性能和效率。

在公开基准测试中,Apriel – 1.5 – 15B – Thinker 在人工智能分析智能指数榜单中得 52 分,与深度求索 – R1-0528、双子座 – 闪电版(Gemini – Flash)等模型实力相当。值得一提的是,在该指数得分超过 50 分的模型中,它的参数规模至少是其他模型的十分之一。此外,作为企业级智能体,其表现同样出色,在电信领域 τ2 基准测试中得 68 分,在 IFBench 基准测试中得 62 分。

总结表

以下是 7 款开源模型的核心信息汇总,方便你根据具体使用场景选择:

模型名称规模 / 上下文窗口核心优势适用场景
月之暗面人工智能 – Kimi – K2 – Thinking1 万亿参数 / 320 亿激活参数,25.6 万令牌上下文窗口长程工具调用稳定(约 200 – 300 次调用);多语言编码和智能体编码能力强劲需要持续规划的自主科研 / 编码智能体
迷你 – max 人工智能 – MiniMax – M22300 亿参数 / 100 亿激活参数,12.8 万令牌上下文窗口效率高,延迟低,适配 “规划→执行→验证” 闭环流程注重成本与速度的规模化生产级智能体
开放人工智能 – GPT – OSS – 120B1170 亿参数 / 51 亿激活参数,12.8 万令牌上下文窗口具备通用高难度推理能力,原生支持工具调用,支持全量微调企业级 / 私有部署、编程竞赛、高可靠性工具调用场景
深度求索人工智能 – DeepSeek – V3.2 – Exp6710 亿参数 / 370 亿激活参数,12.8 万令牌上下文窗口搭载深度求索稀疏注意力机制,长文本推理效率高需高效处理长文档的研发 / 科研工作流
智谱人工智能 – GLM – 4.63550 亿参数 / 320 亿激活参数,20 万令牌上下文窗口编码与推理能力出众,推理过程中工具调用能力升级编码助手、智能体框架、类 Claude Code 工作流
阿里云 – 通义千问 3 – 235B2350 亿参数,25.6 万令牌上下文窗口生成答案质量高,支持多语言,工具调用无需输出思维链大规模代码生成与重构
服务当下人工智能 – Apriel – 1.5 – 15B – Thinker150 亿参数,约 13.1 万令牌上下文窗口紧凑轻量化,支持文本 + 图像多模态推理,适配企业场景终端设备 / 私有云智能体、DevOps 自动化流程

原文链接:https://36kr.com/p/3563618310929285

网站页脚示例