V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
autumncry
V2EX  ›  程序员

自己部署 GLM4.7 或者 MiniMax2.1,能接入 Claude code 或者 opencode 么?

  •  
  •   autumncry · 2 天前 · 3176 次点击

    公司有设备可以本地部署,想求问:

    1. 本地部署后的 API 接口,是否能接入 Claude code 或者 opencode ?
    2. 自己部署的开源模型,和 coding plan 里的 api ,功能和效果是一样的么?
    40 条回复    2026-01-21 13:19:34 +08:00
    hemingway
        1
    hemingway  
       2 天前
    能啊
    TArysiyehua
        3
    TArysiyehua  
       2 天前
    可以是可以,但是 GLM4.7 的硬件成本非常高,一般的公司搞不下来的,你确定能说服公司搞?
    autumncry
        4
    autumncry  
    OP
       2 天前
    @defunct9 @hemingway 收到~学习了!感谢

    @TArysiyehua 公司有算力部署,已经在推进了
    gorvey
        5
    gorvey  
       2 天前
    不好说,我从 glm4.6 用下来,最开始和 cc 一起用,有很多 bug,乱码,报错等等,这些不知道是在模型层面修复,还是哪里的,可能存在一些使用上的问题
    autumncry
        6
    autumncry  
    OP
       2 天前
    @gorvey 我个人理解,coding plan 里的模型和开源的模型权重并不是一个,coding plan 的模型是为了 coding 做了单独优化的。。
    Solix
        7
    Solix  
       2 天前
    可以,不过 cc 一个窗口一秒几十次请求,你确定你们的 gpu 资源够么
    urlk
        8
    urlk  
       2 天前
    后端要做接口适配, 现在市面上流行的两种接口 OPENAI 和 Cluad 的 至少需要兼容一个
    Mumu2580
        9
    Mumu2580  
       2 天前 via iPhone
    先说结论 不好用。能用。一直听人吹,他们真用过嘛。

    等一个工程化,当前使用应该是原始人。等轮子吧。现在修 al 写的 bug
    gorvey
        10
    gorvey  
       2 天前
    @autumncry #6 至少接口适配肯定做了不少额外的工作,因为 claude 接口风格和 openai 是不一样的,对话模型一般都是兼容 openai 的
    autumncry
        11
    autumncry  
    OP
       2 天前
    @Solix 有充足的资源部署。这个一秒几十次的请求,和模型可容纳的最大并发请求数量有关么?
    @urlk 后端适配是指在模型部署的时候,需要支持 openai 接口是么?也就是如果能用 openai 的方式 curl 通,就可以接入 cc 或者 opencode 是么?
    @Mumu2580 其实我用 opencode 免费 zen 模式的 glm4.7 和 minimax2.1 感觉质量可以的,我们可能不会涉及到特别复杂的项目,日常开发这两个模型完全可以 cover 了
    Solix
        12
    Solix  
       2 天前
    @autumncry #11 有关系呀,一秒几十次请求模型,每个请求都带着 token ,你算算是多大的量,另外 glm code 套餐和 minimax 的 code 套餐都没有明确说并发,这都是黑盒,你只能自己算,至少一个 H200 是不够的
    autumncry
        13
    autumncry  
    OP
       2 天前
    @gorvey 其实如果只是接口适配做了变化都好说,因为接口可以中转,但是如果权重不一样,那代码能力指定是大打折扣的
    autumncry
        14
    autumncry  
    OP
       2 天前
    @Solix 哎看来是只能自己淌了,这些确实都不清楚。其实资源倒是好说,我们预算有至少 2 台 H800 8 卡服务器,还可以协调更多,主要还是担心开源模型并不是 coding plan 里的模型
    zhouu
        15
    zhouu  
       2 天前
    可以接入啊,vllm 、ollama 、llama-server 都是开箱即用支持 Anthropic 风格的`/v1/messages`API 的
    pandaPapa
        16
    pandaPapa  
       2 天前
    这得几百万?
    utwo
        17
    utwo  
       2 天前
    https://build.nvidia.com/正好有 GLM4.7 和 MiniMax2.1 两个大模型的免费 API 调用。没用过的朋友可以把 API 接入 cherry studio 试用一下,和最好的商用还是有差距,但是已经能解决很多问题了。
    defunct9
        18
    defunct9  
       2 天前
    厉害啊,真想去楼主公司试试部署模型自己跑,那真太爽了
    defunct9
        19
    defunct9  
       2 天前
    liu731
        20
    liu731  
    PRO
       2 天前
    OP 太有实力了,之前内部部署了微调的 Mistral-Small-24B 。搞了半个月看到账单老板顶不住了。
    Suger828
        21
    Suger828  
       2 天前
    @liu731 一张 a100 80G 用 lora 微调差不多就够了吧,一个月租金不到 1w
    Suger828
        22
    Suger828  
       2 天前
    @TArysiyehua 才 300 多 b 好像
    Suger828
        23
    Suger828  
       2 天前
    @autumncry Linuxdo 有人部署了,其实效果比 codeplan 还要好一些
    liu731
        24
    liu731  
    PRO
       2 天前
    @Suger828 #21 顶不住,我们在腾讯云里面租的,半个月就花了一万多
    Suger828
        25
    Suger828  
       2 天前
    @liu731 租贵了,联系代理至少打四折
    Suger828
        26
    Suger828  
       2 天前
    @autumncry 实际上本地部署的比 code plan 的要强很多,code plan 阉割了
    ihainan
        27
    ihainan  
       2 天前   ❤️ 1
    Ollama 已经提供 Anthropic Compatible API 了: https://x.com/ollama/status/2012434308091224534

    但模型只是 Claude Code 调用的一部分,工具是另一个大头,比如 Web Search 能力是服务提供商提供的,内网自己做 Web Search 的效果不管好坏,肯定是跟服务提供商的有区别。

    另外就是模型的多模态能力,GLM 4.7 我不清楚是否有变动,4.6 本身没有视觉理解能力,得通过 MCP Tool 调用智谱的服务来实现,所以你还得额外部署视觉模型以及研究要如何通过 MCP 调用视觉模型服务。
    edisonwong
        28
    edisonwong  
       2 天前
    @Mumu2580 #9 你说的是对的
    自部署的模型对接 cc ,gemini cli 之流,一堆坑(我在公司调研+自部署折腾了都快半年了),不好用,而且都还没到模型小,资源那地步呢。
    CaA23187
        29
    CaA23187  
       2 天前
    MiniMax2.1 一台 8w 的 mac 一个人用刚好,用的 MiniMax2 8bit 版本,60-80 token/s
    redbeanzzZ
        30
    redbeanzzZ  
       2 天前
    github 上 claude code router 试下呢?还有 zcf
    Rrrrrr
        31
    Rrrrrr  
       2 天前
    2 楼正解
    deeplee
        32
    deeplee  
       2 天前 via Android
    我们公司是内网自己部署的 glm4.7 ,配合 claude code + superpowers ,简单的项目效果还可以
    yycyanyicheng
        33
    yycyanyicheng  
       2 天前
    code plan 9.9 5 小时 40 条 prompt.
    手上有 cursor + claude sonnet 4.5 + codex
    整体玩下来感觉还可以,就是做一些指令的时候没有那么好,同样的谷歌插件代码,miniax2.1 搞了几次搞不定,其实换了 codex 它也是有错误。

    目前还没有强烈感觉到它很差劲的地方。平替是可以的
    bwnjnOEI
        34
    bwnjnOEI  
       2 天前 via iPhone
    好几个开源 llm 网关,统一所有接口而且可以遥测和统计 token ,另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化,就对着这俩文档研究参数和基本原理就行
    bwnjnOEI
        35
    bwnjnOEI  
       2 天前 via iPhone
    @bwnjnOEI 但是我不建议使用 claude code router ,至少公司使用这个不可行,推荐 Bifrost go 写的比 litellm python 的快
    bwnjnOEI
        36
    bwnjnOEI  
       2 天前 via iPhone
    @bwnjnOEI 难点就是瞬时 token 数量会不会爆显存,如果观测一段时间爆了要么加算计要么上手段比如 fp8 (前提调点精度能不能接受
    starlion
        37
    starlion  
       2 天前
    可以啊,自己搞个大模型网关,通过这个网关来调用网关后面的大模型能力,就像 nginx 差不多
    zzutmebwd
        38
    zzutmebwd  
       1 天前 via Android
    @autumncry coding plan 里面的模型随复核降智,甚至还没你自己部署的好呢。
    zzutmebwd
        39
    zzutmebwd  
       1 天前 via Android
    @bwnjnOEI 长上下文搞量化容易翻车的
    bwnjnOEI
        40
    bwnjnOEI  
       1 天前 via iPhone
    @zzutmebwd 你指的是单一量化格式吧,现在都是混合精度,比如 moe 里用 fp8 layernorm 里保持精度能掉多少精度,而且 kv cache 一般都不量化而且我们现在天天用的套餐都是量化后的模型。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5585 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 02:01 · PVG 10:01 · LAX 18:01 · JFK 21:01
    ♥ Do have faith in what you're doing.