自己部署 GLM4.7 或者 MiniMax2.1，能接入 Claude code 或者 opencode 么？

40 条回复 • 2026-01-21 13:19:34 +08:00

1

hemingway

2 天前

能啊

2

defunct9

2 天前

https://rendoumi.com/posts/20260120-nvidia_claudecode/

3

TArysiyehua

2 天前

可以是可以，但是 GLM4.7 的硬件成本非常高，一般的公司搞不下来的，你确定能说服公司搞？

4

autumncry

OP

2 天前

@defunct9 @hemingway 收到~学习了！感谢

@TArysiyehua 公司有算力部署，已经在推进了

5

gorvey

2 天前

不好说,我从 glm4.6 用下来,最开始和 cc 一起用,有很多 bug,乱码,报错等等,这些不知道是在模型层面修复,还是哪里的,可能存在一些使用上的问题

6

autumncry

OP

2 天前

@gorvey 我个人理解，coding plan 里的模型和开源的模型权重并不是一个，coding plan 的模型是为了 coding 做了单独优化的。。

7

Solix

2 天前

可以，不过 cc 一个窗口一秒几十次请求，你确定你们的 gpu 资源够么

8

urlk

2 天前

后端要做接口适配, 现在市面上流行的两种接口 OPENAI 和 Cluad 的至少需要兼容一个

9

Mumu2580

2 天前 via iPhone

先说结论不好用。能用。一直听人吹，他们真用过嘛。

等一个工程化，当前使用应该是原始人。等轮子吧。现在修 al 写的 bug

10

gorvey

2 天前

@autumncry #6 至少接口适配肯定做了不少额外的工作,因为 claude 接口风格和 openai 是不一样的,对话模型一般都是兼容 openai 的

11

autumncry

OP

2 天前

@Solix 有充足的资源部署。这个一秒几十次的请求，和模型可容纳的最大并发请求数量有关么？
@urlk 后端适配是指在模型部署的时候，需要支持 openai 接口是么？也就是如果能用 openai 的方式 curl 通，就可以接入 cc 或者 opencode 是么？
@Mumu2580 其实我用 opencode 免费 zen 模式的 glm4.7 和 minimax2.1 感觉质量可以的，我们可能不会涉及到特别复杂的项目，日常开发这两个模型完全可以 cover 了

12

Solix

2 天前

@autumncry #11 有关系呀，一秒几十次请求模型，每个请求都带着 token ，你算算是多大的量，另外 glm code 套餐和 minimax 的 code 套餐都没有明确说并发，这都是黑盒，你只能自己算，至少一个 H200 是不够的

13

autumncry

OP

2 天前

@gorvey 其实如果只是接口适配做了变化都好说，因为接口可以中转，但是如果权重不一样，那代码能力指定是大打折扣的

14

autumncry

OP

2 天前

@Solix 哎看来是只能自己淌了，这些确实都不清楚。其实资源倒是好说，我们预算有至少 2 台 H800 8 卡服务器，还可以协调更多，主要还是担心开源模型并不是 coding plan 里的模型

15

zhouu

2 天前

可以接入啊，vllm 、ollama 、llama-server 都是开箱即用支持 Anthropic 风格的`/v1/messages`API 的

16

pandaPapa

2 天前

这得几百万?

17

utwo

2 天前

https://build.nvidia.com/正好有 GLM4.7 和 MiniMax2.1 两个大模型的免费 API 调用。没用过的朋友可以把 API 接入 cherry studio 试用一下，和最好的商用还是有差距，但是已经能解决很多问题了。

18

defunct9

2 天前

厉害啊，真想去楼主公司试试部署模型自己跑，那真太爽了

19

defunct9

2 天前

https://rendoumi.com/posts/20260120-nvidia_claudecode/ nvidia 直接接入 claude code

20

liu731

PRO

2 天前

OP 太有实力了，之前内部部署了微调的 Mistral-Small-24B 。搞了半个月看到账单老板顶不住了。

21

Suger828

2 天前

@liu731 一张 a100 80G 用 lora 微调差不多就够了吧，一个月租金不到 1w

22

Suger828

2 天前

@TArysiyehua 才 300 多 b 好像

23

Suger828

2 天前

@autumncry Linuxdo 有人部署了，其实效果比 codeplan 还要好一些

24

liu731

PRO

2 天前

@Suger828 #21 顶不住，我们在腾讯云里面租的，半个月就花了一万多

25

Suger828

2 天前

@liu731 租贵了，联系代理至少打四折

26

Suger828

2 天前

@autumncry 实际上本地部署的比 code plan 的要强很多，code plan 阉割了

27

ihainan

2 天前

1

Ollama 已经提供 Anthropic Compatible API 了： https://x.com/ollama/status/2012434308091224534

但模型只是 Claude Code 调用的一部分，工具是另一个大头，比如 Web Search 能力是服务提供商提供的，内网自己做 Web Search 的效果不管好坏，肯定是跟服务提供商的有区别。

另外就是模型的多模态能力，GLM 4.7 我不清楚是否有变动，4.6 本身没有视觉理解能力，得通过 MCP Tool 调用智谱的服务来实现，所以你还得额外部署视觉模型以及研究要如何通过 MCP 调用视觉模型服务。

28

edisonwong

2 天前

@Mumu2580 #9 你说的是对的
自部署的模型对接 cc ，gemini cli 之流，一堆坑（我在公司调研+自部署折腾了都快半年了），不好用，而且都还没到模型小，资源那地步呢。

29

CaA23187

2 天前

MiniMax2.1 一台 8w 的 mac 一个人用刚好，用的 MiniMax2 8bit 版本，60-80 token/s

30

redbeanzzZ

2 天前

github 上 claude code router 试下呢？还有 zcf

31

Rrrrrr

2 天前

2 楼正解

32

deeplee

2 天前 via Android

我们公司是内网自己部署的 glm4.7 ，配合 claude code + superpowers ，简单的项目效果还可以

33

yycyanyicheng

2 天前

code plan 9.9 5 小时 40 条 prompt.
手上有 cursor + claude sonnet 4.5 + codex
整体玩下来感觉还可以，就是做一些指令的时候没有那么好，同样的谷歌插件代码，miniax2.1 搞了几次搞不定，其实换了 codex 它也是有错误。

目前还没有强烈感觉到它很差劲的地方。平替是可以的

34

bwnjnOEI

2 天前 via iPhone

好几个开源 llm 网关，统一所有接口而且可以遥测和统计 token ，另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化，就对着这俩文档研究参数和基本原理就行

35

bwnjnOEI

2 天前 via iPhone

@bwnjnOEI 但是我不建议使用 claude code router ，至少公司使用这个不可行，推荐 Bifrost go 写的比 litellm python 的快

36

bwnjnOEI

2 天前 via iPhone

@bwnjnOEI 难点就是瞬时 token 数量会不会爆显存，如果观测一段时间爆了要么加算计要么上手段比如 fp8 （前提调点精度能不能接受

37

starlion

2 天前

可以啊，自己搞个大模型网关，通过这个网关来调用网关后面的大模型能力，就像 nginx 差不多

38

zzutmebwd

1 天前 via Android

@autumncry coding plan 里面的模型随复核降智，甚至还没你自己部署的好呢。

39

zzutmebwd

1 天前 via Android

@bwnjnOEI 长上下文搞量化容易翻车的

40

bwnjnOEI

1 天前 via iPhone

@zzutmebwd 你指的是单一量化格式吧，现在都是混合精度，比如 moe 里用 fp8 layernorm 里保持精度能掉多少精度，而且 kv cache 一般都不量化而且我们现在天天用的套餐都是量化后的模型。