V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kaesi0
V2EX  ›  程序员

这可能是下一个周经帖:国产大模型哪个编程能力最顶?

  •  
  •   kaesi0 · 21 天前 · 6782 次点击

    如题,在不考虑价格的情况,目前国产大模型哪个编程能力最顶呢,以及各自的擅长领域,参赛的选手有:

    GLM-4.6:说是 Claude Sonnet 4.5 和 GPT-5 ,但价格仅需要 Sonnet 1/7

    Qwen3-Code:SWE-bench Live 测试中得分 54.7 ,超越 GPT-4.1 ( 48.6 ),中文 API 文档理解准确率达 92%

    DeepSeek-V3.2-Exp:说是被 GLM4.6 超过,但在 Vercel 、Windsurf 等编程平台接入

    MiniMax M2:每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ,专为 Agent 工作流设计

    第 1 条附言  ·  20 天前
    简单总结下本周 PK 结果:

    一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距,如果是奔着出活儿去的,就选择这三家模型,首推 Claude Opus ,缺点就是价格太高。

    当然国产大模型也不是全军覆没

    GLM-4.6 口碑不错,用来做调度还是小任务可以胜任,但是最近降智明显 @midsolo @defaw @vevlins @derek80

    Qwen3-Coder 完成一些独立模块可用,写 Rust 感觉也写得不错 @Wh1t3zZ

    DeepSeek-V3.2 做小修改,matlab 可以胜任 @veni2023 @yxc246800

    kimi-for-coding

    建议的工作方式:用 GPT Claude Gemini 给你出方案,让国产 llm 干活 @usVexMownCzar @brookegas

    感谢各位大佬的反馈~
    69 条回复    2025-12-17 13:41:29 +08:00
    courtier
        1
    courtier  
       21 天前
    我觉得就是考虑了价格的情况下才会使用国产大模型。。。主打性价比,不然 Claude ,gpt ,gemini 不香吗
    gorvey
        2
    gorvey  
       21 天前
    不好说,你不知道它什么时候会降智,本来就不聪明,一降智就很难用,反正就是都不行
    abc0123xyz
        3
    abc0123xyz  
       21 天前
    GLM-4.6 不错,240 块的套餐,要是觉得不好,那肯定是我自己的问题(穷)
    sunny352787
        4
    sunny352787  
       21 天前   ❤️ 28
    我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命
    midsolo
        5
    midsolo  
       21 天前
    GLM-4.6 之前用起来还不错,但是在出了背刺包之后,用量太多了,总是莫名其妙的降智,严重影响体验
    keshawnvan
        6
    keshawnvan  
       21 天前   ❤️ 4
    全是垃圾,别浪费时间。
    ericguo
        7
    ericguo  
       21 天前   ❤️ 1
    kimi-for-coding 还行,49 元每周 1024 次调用
    cleveryun
        8
    cleveryun  
       21 天前
    好奇问一下,GLM 4.6 ,在 trae 和 iflow cli 里都有免费的,用这个和用 GLM coding plan 里的付费套餐,对应的是同样的大模型吗,网速上或者功能上有差异吗?
    abc0123xyz
        9
    abc0123xyz  
       21 天前
    刚出的时候最好,这个时候为了宣传,不怎么降智。
    YanSeven
        10
    YanSeven  
       21 天前
    干点小活儿是可以的,不要想着用 3 个低级研发顶上一个中级研发。三个臭皮匠顶不过诸葛亮。
    Saunak
        11
    Saunak  
       21 天前
    @sunny352787 sonnet4.5 呢? opus4.5 有点太贵了。
    gpt5codex 咋样?
    livib
        12
    livib  
       21 天前
    还需要时间沉淀
    stonedongdong
        13
    stonedongdong  
       21 天前
    @midsolo #5 同感,之前用起来确实很不错,但是最近体验差了。上周用 GLM-4.6 断断续续 3 天没整明白的需求,周六用 Sonnet 4.5 一天就搞定了
    takanashisakura
        14
    takanashisakura  
       21 天前
    性价比一点的话,可以考虑 sota 模型( claude ,gemini 这些)来进行系统设计,然后把需求拆分为小的功能点后,再让国产大模型来实现。
    bronyakaka
        15
    bronyakaka  
       21 天前
    最近 kimi k2 、gml4.6 、minimax 一起用,降智问题确实存在
    Feedmo
        16
    Feedmo  
       21 天前
    @midsolo 背刺包 好贴切的名字
    seven777
        17
    seven777  
       21 天前
    加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
    如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
    第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
    国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.
    usVexMownCzar
        18
    usVexMownCzar  
       21 天前 via iPhone
    你可以用 GPT Claude Gemini 给你出方案,让国产 llm 去执行🤪
    usVexMownCzar
        19
    usVexMownCzar  
       21 天前 via iPhone
    还有 kimi 的 cli 工具,除了它自己的代码写的漂亮外,其他真就是垃圾,识别不了命令的/ 还是路径的/ ,无法识别图片。
    furlxy
        20
    furlxy  
       21 天前
    这几个,实际用下来感觉都差不多
    Wh1t3zZ
        21
    Wh1t3zZ  
       21 天前 via Android
    Qwen3-Coder 我用来写一些独立的模块挺不错的,让他写完我再集成进自己的工程里,他写 Rust 感觉比我写得要好
    NizumaEiji
        22
    NizumaEiji  
       21 天前
    其他的没用过,glm 不怎么样。
    最近试着拿他和 claude code 分析日志数据生成一份测试报告,80%的统计结果都是错误的,错误到了随便找一个指标自己写脚本统计一下发现偏差能超过 10 倍的那种。
    这是我在花了 1.5 人日搞出来的东西,而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读,每次看这些东西都跟玩大家来找茬一样,需要在一堆垃圾中找出来到底哪里有问题,然后给它提出来等着它接下来再生成一堆垃圾。
    bbao
        23
    bbao  
       21 天前   ❤️ 1
    在做的各位都是垃圾
    defaw
        24
    defaw  
       20 天前
    glm 没问题,我目前写的六轴机器人的正逆解,属于非常偏门的网上找不到参考答案的程序,我描述清楚的情况下,glm 不开思考模式都能写的又快又好,这说明逻辑面上模型能力没有问题。
    你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口,多思考自己是否真的给到了模型需要的信息,然后再来评价模型
    maxwel1
        25
    maxwel1  
       20 天前   ❤️ 1
    “不不不,请不要误会,我不是针对你,我是说在做的各位。。。“
    LUCIFERorCHRIS
        26
    LUCIFERorCHRIS  
       20 天前
    @cleveryun 我理解就是服务商不一样,说直白点就是阉割版,比在各类大模型官方开通付费 api 再自己调用慢一些、准确率低一些吧
    craftsmanship
        27
    craftsmanship  
       20 天前 via Android
    @sunny352787 确实 大模型这玩意只想用最强的 用最少的次数搞定需求 用垃圾的反复折腾 改 prompt 重建 context 麻烦死了
    derek80
        28
    derek80  
       20 天前
    组合起来用,我用 glm4.6 写写文档,修修语法和测试问题。
    veni2023
        29
    veni2023  
       20 天前
    ds 起码生产的 code 小修改下能跑起来
    yxc246800
        30
    yxc246800  
       20 天前
    我用 ds 写 matlab ,嘎嘎好使
    randm
        31
    randm  
       20 天前
    Qoder 代码提示不行,但执行还可以的。
    8355
        32
    8355  
       20 天前   ❤️ 1
    @sunny352787 太对了,当你在跟一个蠢的模型斗智斗勇半天的时候,再切换到一个聪明的模型一切都是顺理成章,得出结论就是这蠢东西根本没法用,我都用上 ai 了我还要写一堆东西来防止他出问题,整个就是本末倒置,白送都不用。
    maix27
        33
    maix27  
       20 天前
    It's a weekly question...
    bs10081
        34
    bs10081  
       20 天前
    @Saunak 用 Claude Code 的話,他自己會切換,plan mode 的時候用 Opus ,其他時候執行用 Sonnet
    icyalala
        35
    icyalala  
       20 天前
    直接御三家 GPT/Gemini/Claude 最近的一两代模型
    本来 AI 就是拿来提效的,不要让 AI 反过来浪费你自己的时间
    herun
        36
    herun  
       20 天前 via Android
    试过 kimi-k2 写前端,80%的情况下写的代码可用,不过有时候会不按要求来写代码,这时候切换到 Claude Sonnet ,一次提示就搞定了
    momo31
        37
    momo31  
       20 天前
    only chatgpt claude
    vevlins
        38
    vevlins  
       20 天前
    日常工作主力开发 glm 4.6 超过两个月,没觉得 claude 有什么显著优势,我用 glm 做不好的任务交给 claude 也就那样。
    mmdsun
        39
    mmdsun  
       20 天前 via iPhone
    国产模型现在没那么差,GLM 还可以其他没有用过。
    fcten
        40
    fcten  
       20 天前
    用了一段时间 Qwen Code ,我的结论是完全可用。我自己把控架构,细节交给它。提效还是很明显的。

    如果你想把 AI 当 CTO 来用那 Qwen Code 确实还不行。就算它能行我也不敢发布上线啊,毕竟出了问题是我背锅不是 AI 背锅。

    另外 Qwen Code 免费。让我花钱上班那是不可能的。
    dreamkuo
        41
    dreamkuo  
       20 天前
    我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命 ------------- 我认可这个观点
    HaibaraDP
        42
    HaibaraDP  
       20 天前
    别折磨自己了,用来编程一个都不行,就算免费它也得能干活才行
    evilgod528
        43
    evilgod528  
       20 天前
    @Saunak 日常主力就是 codex gpt5 ,sonnet 我感觉用下来没有 gpt5 质量好,gemini2.5pro 删过我项目心有余悸
    streamrx
        44
    streamrx  
       20 天前 via iPhone
    都是垃圾。别浪费自己的时间
    brookegas
        45
    brookegas  
       20 天前
    我现在的模式是,Claude Opus 4.5 给方案
    Deepseek v3.2 执行

    Minimax M2:刚开始我是它的粉丝,尤其是看到 openrouter 上它在 Cline 选用的模型里排前三,往往仅次于 Claude 家(现在又来了 Gemini 3pro ),这是老外每天真金白银投出来的,不过上次被它无声无息把我的文件删掉重写,所有的样式都按它的想法重改了以后,就不太敢用了。希望它的新版本改进些吧,我还会试用的!

    Deepseek v3.2:12 月 1 日更新的这个版本运行得很好,速度飞快,而且实在太便宜了,便宜得我用得都不好意思了。跟 Claude 这种血盆大口贪婪吞噬我钱钱的怪兽相比,Deepseek 简直是慈眉善目的大善人!它真正的缺点很少有人提到,就是上下文窗口从 1 月发布到 12 月都没有增长过,一直只有 128K !导致我必须把任务拆细了喂给它,不能给整坨的,不过这样也好,保持了自己对整个代码的掌控感。

    每次我想指责 Deepseek 的时候,看了它清一色的清北浙科南组成的开发团队名单,就讪讪地把话吞了回去,哈哈!
    gegeligegeligo
        46
    gegeligegeligo  
       20 天前 via Android
    @sunny352787 opus 还是太贵了,没必要,就用普通的 4.5 就行了
    kaesi0
        47
    kaesi0  
    OP
       20 天前
    @abc0123xyz 目前在用
    kaesi0
        48
    kaesi0  
    OP
       20 天前
    @sunny352787 这么绝对的么
    securityCoding
        49
    securityCoding  
       20 天前 via Android
    我在用企业版 cusor ,唯一真神是 opus 其次是 sonnet ,gpt5.2 跟 gemini3pro 都差点意思
    kaesi0
        50
    kaesi0  
    OP
       20 天前
    @cleveryun tare 和 iflow 给钱了啊
    kaesi0
        51
    kaesi0  
    OP
       20 天前
    kaesi0
        52
    kaesi0  
    OP
       20 天前
    @Wh1t3zZ 貌似运维的活也也干得好
    kaesi0
        53
    kaesi0  
    OP
       20 天前
    简单总结下本周 PK 结果:

    一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距,如果是奔着出活儿去的,就选择这三家模型,首推 Claude Opus ,缺点就是价格太高。

    当然国产大模型也不是全军覆没

    GLM-4.6 口碑不错,用来做调度还是小任务可以胜任,但是最近降智明显 @midsolo @defaw @vevlins @derek80

    Qwen3-Coder 完成一些独立模块可用,写 Rust 感觉也写得不错 @Wh1t3zZ

    DeepSeek-V3.2 做小修改,matlab 可以胜任 @veni2023 @yxc246800

    kimi-for-coding

    建议的工作方式:用 GPT Claude Gemini 给你出方案,让国产 llm 干活 @usVexMownCzar @brookegas

    感谢各位大佬的反馈~
    uuundefined
        54
    uuundefined  
       20 天前
    御三家降智了是垃圾, 国内的满智都是垃圾。。。一点点差异就会让误差越来越大, 啥时候真的能无视 token 的多 agent 互相协作监督才行
    linch97
        55
    linch97  
       20 天前
    @seven777 豆包排前面你认真的?国产模型编码能力前几位再怎么也排不到豆包啊
    wanghoi
        56
    wanghoi  
       20 天前
    你看 SWE-Bench Verified 排名就是了:
    排第一的大模型不是国外的,是国产:TRAE + Doubao-Seed-Code
    skuuhui
        57
    skuuhui  
       20 天前
    没有不行的模型,只有不行的人。1.不要相信任何网站上的实验室数据。2.针对模型调整合适的 ai coding 范式。3. transformer 架构的大模型一定是预测而不是真正“理解”。
    unco020511
        58
    unco020511  
       20 天前
    Qwen 吧,不过没用过国产模型来编程,没啥发言权
    edisonwong
        59
    edisonwong  
       20 天前
    gemini 是真神。让写了几个 ppt ,gemini 毫不夸张的说,我可以直接交上去,不用改。图片,文字都是上乘。qwen ,豆包啥玩意,生成的图片完全无法再 ppt 上使用,而且图片里带文字的错误的概率比 gemini 高多了
    neptuno
        60
    neptuno  
       20 天前
    不考虑价格的情况下,应该直接用国外大模型,套餐开到顶配
    kaesi0
        61
    kaesi0  
    OP
       20 天前
    @wanghoi 具体效果如何
    kaesi0
        62
    kaesi0  
    OP
       20 天前
    @edisonwong 图片这一块,gemini 目前是绝对领先了
    kaesi0
        63
    kaesi0  
    OP
       20 天前
    @neptuno 确实是,有朋友就这么用,oups 顶到用,就没有这么多烦恼
    catamaran
        64
    catamaran  
       20 天前
    @edisonwong 国外的模型能加中文吗?我试了下全是乱码
    edisonwong
        65
    edisonwong  
       20 天前
    @catamaran #64 不行
    Wkj1998
        66
    Wkj1998  
       19 天前 via Android
    不考虑价格的情况下还是支持 GPT 、Claude 。国内是能用,国外是好用
    chspy
        67
    chspy  
       19 天前
    国产主打的性价比,ds 、m2 这些用起来也没那么差,就是用的人多自然就会降点智,我的体感是拆分一些小任务走,准确度会高点。但说白了不管用国内国外最后都得自己把关,还没有能完全相信的。国产的话我是用 PPIO ,没什么阉割感,有需要的可以拿我的 WF34BQ 注册领试用。
    zxjxzj9
        68
    zxjxzj9  
       19 天前
    肯定是御三家最强。实际体验综合价格现在反而是被喷的最多的 openai 家最好,尤其是 5.2 一下上下文拉的超级大,很多时候可以不仅只是写代码,还能写那种非标准代码的自定义规则表达式,准确度比起之前的各种模型提升真的超大,真的是帮大忙了
    Gilfoyle26
        69
    Gilfoyle26  
       19 天前
    @sunny352787 #4 Big 胆!敢说国产大模型全是垃圾,此等逆天言论,难道 OP 就不怕天威降临吗?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5548 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 06:04 · PVG 14:04 · LAX 22:04 · JFK 01:04
    ♥ Do have faith in what you're doing.