如题,在不考虑价格的情况,目前国产大模型哪个编程能力最顶呢,以及各自的擅长领域,参赛的选手有:
GLM-4.6:说是 Claude Sonnet 4.5 和 GPT-5 ,但价格仅需要 Sonnet 1/7
Qwen3-Code:SWE-bench Live 测试中得分 54.7 ,超越 GPT-4.1 ( 48.6 ),中文 API 文档理解准确率达 92%
DeepSeek-V3.2-Exp:说是被 GLM4.6 超过,但在 Vercel 、Windsurf 等编程平台接入
MiniMax M2:每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ,专为 Agent 工作流设计
1
courtier 6 小时 40 分钟前
我觉得就是考虑了价格的情况下才会使用国产大模型。。。主打性价比,不然 Claude ,gpt ,gemini 不香吗
|
2
gorvey 6 小时 38 分钟前
不好说,你不知道它什么时候会降智,本来就不聪明,一降智就很难用,反正就是都不行
|
3
abc0123xyz 6 小时 33 分钟前
GLM-4.6 不错,240 块的套餐,要是觉得不好,那肯定是我自己的问题(穷)
|
4
sunny352787 6 小时 28 分钟前 我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命
|
5
midsolo 6 小时 27 分钟前
GLM-4.6 之前用起来还不错,但是在出了背刺包之后,用量太多了,总是莫名其妙的降智,严重影响体验
|
6
keshawnvan 6 小时 23 分钟前 全是垃圾,别浪费时间。
|
7
ericguo 6 小时 7 分钟前 kimi-for-coding 还行,49 元每周 1024 次调用
|
8
cleveryun 5 小时 53 分钟前
好奇问一下,GLM 4.6 ,在 trae 和 iflow cli 里都有免费的,用这个和用 GLM coding plan 里的付费套餐,对应的是同样的大模型吗,网速上或者功能上有差异吗?
|
9
abc0123xyz 5 小时 27 分钟前
刚出的时候最好,这个时候为了宣传,不怎么降智。
|
10
YanSeven 5 小时 26 分钟前
干点小活儿是可以的,不要想着用 3 个低级研发顶上一个中级研发。三个臭皮匠顶不过诸葛亮。
|
11
Saunak 5 小时 18 分钟前
@sunny352787 sonnet4.5 呢? opus4.5 有点太贵了。
gpt5codex 咋样? |
12
livib 5 小时 13 分钟前
还需要时间沉淀
|
13
stonedongdong 5 小时 11 分钟前
@midsolo #5 同感,之前用起来确实很不错,但是最近体验差了。上周用 GLM-4.6 断断续续 3 天没整明白的需求,周六用 Sonnet 4.5 一天就搞定了
|
14
takanashisakura 5 小时 6 分钟前
性价比一点的话,可以考虑 sota 模型( claude ,gemini 这些)来进行系统设计,然后把需求拆分为小的功能点后,再让国产大模型来实现。
|
15
bronyakaka 4 小时 55 分钟前
最近 kimi k2 、gml4.6 、minimax 一起用,降智问题确实存在
|
17
seven777 4 小时 23 分钟前
加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的. 第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest. 国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外. |
18
usVexMownCzar 4 小时 8 分钟前 via iPhone
你可以用 GPT Claude Gemini 给你出方案,让国产 llm 去执行🤪
|
19
usVexMownCzar 4 小时 5 分钟前 via iPhone
还有 kimi 的 cli 工具,除了它自己的代码写的漂亮外,其他真就是垃圾,识别不了命令的/ 还是路径的/ ,无法识别图片。
|
20
furlxy 3 小时 48 分钟前
这几个,实际用下来感觉都差不多
|
21
Wh1t3zZ 3 小时 40 分钟前 via Android
Qwen3-Coder 我用来写一些独立的模块挺不错的,让他写完我再集成进自己的工程里,他写 Rust 感觉比我写得要好
|
22
NizumaEiji 3 小时 39 分钟前
其他的没用过,glm 不怎么样。
最近试着拿他和 claude code 分析日志数据生成一份测试报告,80%的统计结果都是错误的,错误到了随便找一个指标自己写脚本统计一下发现偏差能超过 10 倍的那种。 这是我在花了 1.5 人日搞出来的东西,而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读,每次看这些东西都跟玩大家来找茬一样,需要在一堆垃圾中找出来到底哪里有问题,然后给它提出来等着它接下来再生成一堆垃圾。 |
23
bbao 3 小时 38 分钟前 在做的各位都是垃圾
|
24
defaw 3 小时 11 分钟前
glm 没问题,我目前写的六轴机器人的正逆解,属于非常偏门的网上找不到参考答案的程序,我描述清楚的情况下,glm 不开思考模式都能写的又快又好,这说明逻辑面上模型能力没有问题。
你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口,多思考自己是否真的给到了模型需要的信息,然后再来评价模型 |
25
maxwel1 2 小时 32 分钟前 “不不不,请不要误会,我不是针对你,我是说在做的各位。。。“
|
26
LUCIFERorCHRIS 1 小时 59 分钟前
@cleveryun 我理解就是服务商不一样,说直白点就是阉割版,比在各类大模型官方开通付费 api 再自己调用慢一些、准确率低一些吧
|
27
craftsmanship 1 小时 44 分钟前 via Android
@sunny352787 确实 大模型这玩意只想用最强的 用最少的次数搞定需求 用垃圾的反复折腾 改 prompt 重建 context 麻烦死了
|
28
derek80 1 小时 36 分钟前
组合起来用,我用 glm4.6 写写文档,修修语法和测试问题。
|
29
veni2023 1 小时 6 分钟前
ds 起码生产的 code 小修改下能跑起来
|
30
yxc246800 55 分钟前
我用 ds 写 matlab ,嘎嘎好使
|
31
randm 30 分钟前
Qoder 代码提示不行,但执行还可以的。
|