公司有设备可以本地部署,想求问:
1
hemingway 2 天前
能啊
|
3
TArysiyehua 2 天前
可以是可以,但是 GLM4.7 的硬件成本非常高,一般的公司搞不下来的,你确定能说服公司搞?
|
4
autumncry OP |
5
gorvey 2 天前
不好说,我从 glm4.6 用下来,最开始和 cc 一起用,有很多 bug,乱码,报错等等,这些不知道是在模型层面修复,还是哪里的,可能存在一些使用上的问题
|
7
Solix 2 天前
可以,不过 cc 一个窗口一秒几十次请求,你确定你们的 gpu 资源够么
|
8
urlk 2 天前
后端要做接口适配, 现在市面上流行的两种接口 OPENAI 和 Cluad 的 至少需要兼容一个
|
9
Mumu2580 2 天前 via iPhone
先说结论 不好用。能用。一直听人吹,他们真用过嘛。
等一个工程化,当前使用应该是原始人。等轮子吧。现在修 al 写的 bug |
11
autumncry OP |
12
Solix 2 天前
@autumncry #11 有关系呀,一秒几十次请求模型,每个请求都带着 token ,你算算是多大的量,另外 glm code 套餐和 minimax 的 code 套餐都没有明确说并发,这都是黑盒,你只能自己算,至少一个 H200 是不够的
|
14
autumncry OP @Solix 哎看来是只能自己淌了,这些确实都不清楚。其实资源倒是好说,我们预算有至少 2 台 H800 8 卡服务器,还可以协调更多,主要还是担心开源模型并不是 coding plan 里的模型
|
15
zhouu 2 天前
可以接入啊,vllm 、ollama 、llama-server 都是开箱即用支持 Anthropic 风格的`/v1/messages`API 的
|
16
pandaPapa 2 天前
这得几百万?
|
17
utwo 2 天前
https://build.nvidia.com/正好有 GLM4.7 和 MiniMax2.1 两个大模型的免费 API 调用。没用过的朋友可以把 API 接入 cherry studio 试用一下,和最好的商用还是有差距,但是已经能解决很多问题了。
|
18
defunct9 2 天前
厉害啊,真想去楼主公司试试部署模型自己跑,那真太爽了
|
19
defunct9 2 天前
https://rendoumi.com/posts/20260120-nvidia_claudecode/ nvidia 直接接入 claude code
|
20
liu731 PRO OP 太有实力了,之前内部部署了微调的 Mistral-Small-24B 。搞了半个月看到账单老板顶不住了。
|
22
Suger828 2 天前
@TArysiyehua 才 300 多 b 好像
|
27
ihainan 2 天前 Ollama 已经提供 Anthropic Compatible API 了: https://x.com/ollama/status/2012434308091224534
但模型只是 Claude Code 调用的一部分,工具是另一个大头,比如 Web Search 能力是服务提供商提供的,内网自己做 Web Search 的效果不管好坏,肯定是跟服务提供商的有区别。 另外就是模型的多模态能力,GLM 4.7 我不清楚是否有变动,4.6 本身没有视觉理解能力,得通过 MCP Tool 调用智谱的服务来实现,所以你还得额外部署视觉模型以及研究要如何通过 MCP 调用视觉模型服务。 |
28
edisonwong 2 天前
@Mumu2580 #9 你说的是对的
自部署的模型对接 cc ,gemini cli 之流,一堆坑(我在公司调研+自部署折腾了都快半年了),不好用,而且都还没到模型小,资源那地步呢。 |
29
CaA23187 2 天前
MiniMax2.1 一台 8w 的 mac 一个人用刚好,用的 MiniMax2 8bit 版本,60-80 token/s
|
30
redbeanzzZ 2 天前
github 上 claude code router 试下呢?还有 zcf
|
31
Rrrrrr 2 天前
2 楼正解
|
32
deeplee 2 天前 via Android
我们公司是内网自己部署的 glm4.7 ,配合 claude code + superpowers ,简单的项目效果还可以
|
33
yycyanyicheng 2 天前
code plan 9.9 5 小时 40 条 prompt.
手上有 cursor + claude sonnet 4.5 + codex 整体玩下来感觉还可以,就是做一些指令的时候没有那么好,同样的谷歌插件代码,miniax2.1 搞了几次搞不定,其实换了 codex 它也是有错误。 目前还没有强烈感觉到它很差劲的地方。平替是可以的 |
34
bwnjnOEI 2 天前 via iPhone
好几个开源 llm 网关,统一所有接口而且可以遥测和统计 token ,另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化,就对着这俩文档研究参数和基本原理就行
|
35
bwnjnOEI 2 天前 via iPhone
@bwnjnOEI 但是我不建议使用 claude code router ,至少公司使用这个不可行,推荐 Bifrost go 写的比 litellm python 的快
|
37
starlion 2 天前
可以啊,自己搞个大模型网关,通过这个网关来调用网关后面的大模型能力,就像 nginx 差不多
|