V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kaesi0
V2EX  ›  程序员

这可能是下一个周经帖:国产大模型哪个编程能力最顶?

  •  
  •   kaesi0 · 2025 年 12 月 15 日 · 7502 次点击
    这是一个创建于 41 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,在不考虑价格的情况,目前国产大模型哪个编程能力最顶呢,以及各自的擅长领域,参赛的选手有:

    GLM-4.6:说是 Claude Sonnet 4.5 和 GPT-5 ,但价格仅需要 Sonnet 1/7

    Qwen3-Code:SWE-bench Live 测试中得分 54.7 ,超越 GPT-4.1 ( 48.6 ),中文 API 文档理解准确率达 92%

    DeepSeek-V3.2-Exp:说是被 GLM4.6 超过,但在 Vercel 、Windsurf 等编程平台接入

    MiniMax M2:每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ,专为 Agent 工作流设计

    第 1 条附言  ·  2025 年 12 月 15 日
    简单总结下本周 PK 结果:

    一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距,如果是奔着出活儿去的,就选择这三家模型,首推 Claude Opus ,缺点就是价格太高。

    当然国产大模型也不是全军覆没

    GLM-4.6 口碑不错,用来做调度还是小任务可以胜任,但是最近降智明显 @midsolo @defaw @vevlins @derek80

    Qwen3-Coder 完成一些独立模块可用,写 Rust 感觉也写得不错 @Wh1t3zZ

    DeepSeek-V3.2 做小修改,matlab 可以胜任 @veni2023 @yxc246800

    kimi-for-coding

    建议的工作方式:用 GPT Claude Gemini 给你出方案,让国产 llm 干活 @usVexMownCzar @brookegas

    感谢各位大佬的反馈~
    69 条回复    2025-12-17 13:41:29 +08:00
    courtier
        1
    courtier  
       2025 年 12 月 15 日
    我觉得就是考虑了价格的情况下才会使用国产大模型。。。主打性价比,不然 Claude ,gpt ,gemini 不香吗
    gorvey
        2
    gorvey  
       2025 年 12 月 15 日
    不好说,你不知道它什么时候会降智,本来就不聪明,一降智就很难用,反正就是都不行
    abc0123xyz
        3
    abc0123xyz  
       2025 年 12 月 15 日
    GLM-4.6 不错,240 块的套餐,要是觉得不好,那肯定是我自己的问题(穷)
    sunny352787
        4
    sunny352787  
       2025 年 12 月 15 日   ❤️ 28
    我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命
    midsolo
        5
    midsolo  
       2025 年 12 月 15 日
    GLM-4.6 之前用起来还不错,但是在出了背刺包之后,用量太多了,总是莫名其妙的降智,严重影响体验
    keshawnvan
        6
    keshawnvan  
       2025 年 12 月 15 日   ❤️ 4
    全是垃圾,别浪费时间。
    ericguo
        7
    ericguo  
       2025 年 12 月 15 日   ❤️ 1
    kimi-for-coding 还行,49 元每周 1024 次调用
    cleveryun
        8
    cleveryun  
       2025 年 12 月 15 日
    好奇问一下,GLM 4.6 ,在 trae 和 iflow cli 里都有免费的,用这个和用 GLM coding plan 里的付费套餐,对应的是同样的大模型吗,网速上或者功能上有差异吗?
    abc0123xyz
        9
    abc0123xyz  
       2025 年 12 月 15 日
    刚出的时候最好,这个时候为了宣传,不怎么降智。
    YanSeven
        10
    YanSeven  
       2025 年 12 月 15 日
    干点小活儿是可以的,不要想着用 3 个低级研发顶上一个中级研发。三个臭皮匠顶不过诸葛亮。
    Saunak
        11
    Saunak  
       2025 年 12 月 15 日
    @sunny352787 sonnet4.5 呢? opus4.5 有点太贵了。
    gpt5codex 咋样?
    livib
        12
    livib  
       2025 年 12 月 15 日
    还需要时间沉淀
    stonedongdong
        13
    stonedongdong  
       2025 年 12 月 15 日
    @midsolo #5 同感,之前用起来确实很不错,但是最近体验差了。上周用 GLM-4.6 断断续续 3 天没整明白的需求,周六用 Sonnet 4.5 一天就搞定了
    takanashisakura
        14
    takanashisakura  
       2025 年 12 月 15 日
    性价比一点的话,可以考虑 sota 模型( claude ,gemini 这些)来进行系统设计,然后把需求拆分为小的功能点后,再让国产大模型来实现。
    bronyakaka
        15
    bronyakaka  
       2025 年 12 月 15 日
    最近 kimi k2 、gml4.6 、minimax 一起用,降智问题确实存在
    Feedmo
        16
    Feedmo  
       2025 年 12 月 15 日
    @midsolo 背刺包 好贴切的名字
    seven777
        17
    seven777  
       2025 年 12 月 15 日
    加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
    如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
    第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
    国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.
    usVexMownCzar
        18
    usVexMownCzar  
       2025 年 12 月 15 日 via iPhone
    你可以用 GPT Claude Gemini 给你出方案,让国产 llm 去执行🤪
    usVexMownCzar
        19
    usVexMownCzar  
       2025 年 12 月 15 日 via iPhone
    还有 kimi 的 cli 工具,除了它自己的代码写的漂亮外,其他真就是垃圾,识别不了命令的/ 还是路径的/ ,无法识别图片。
    furlxy
        20
    furlxy  
       2025 年 12 月 15 日
    这几个,实际用下来感觉都差不多
    Wh1t3zZ
        21
    Wh1t3zZ  
       2025 年 12 月 15 日 via Android
    Qwen3-Coder 我用来写一些独立的模块挺不错的,让他写完我再集成进自己的工程里,他写 Rust 感觉比我写得要好
    NizumaEiji
        22
    NizumaEiji  
       2025 年 12 月 15 日
    其他的没用过,glm 不怎么样。
    最近试着拿他和 claude code 分析日志数据生成一份测试报告,80%的统计结果都是错误的,错误到了随便找一个指标自己写脚本统计一下发现偏差能超过 10 倍的那种。
    这是我在花了 1.5 人日搞出来的东西,而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读,每次看这些东西都跟玩大家来找茬一样,需要在一堆垃圾中找出来到底哪里有问题,然后给它提出来等着它接下来再生成一堆垃圾。
    bbao
        23
    bbao  
       2025 年 12 月 15 日   ❤️ 1
    在做的各位都是垃圾
    defaw
        24
    defaw  
       2025 年 12 月 15 日
    glm 没问题,我目前写的六轴机器人的正逆解,属于非常偏门的网上找不到参考答案的程序,我描述清楚的情况下,glm 不开思考模式都能写的又快又好,这说明逻辑面上模型能力没有问题。
    你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口,多思考自己是否真的给到了模型需要的信息,然后再来评价模型
    maxwel1
        25
    maxwel1  
       2025 年 12 月 15 日   ❤️ 1
    “不不不,请不要误会,我不是针对你,我是说在做的各位。。。“
    LUCIFERorCHRIS
        26
    LUCIFERorCHRIS  
       2025 年 12 月 15 日
    @cleveryun 我理解就是服务商不一样,说直白点就是阉割版,比在各类大模型官方开通付费 api 再自己调用慢一些、准确率低一些吧
    craftsmanship
        27
    craftsmanship  
       2025 年 12 月 15 日 via Android
    @sunny352787 确实 大模型这玩意只想用最强的 用最少的次数搞定需求 用垃圾的反复折腾 改 prompt 重建 context 麻烦死了
    derek80
        28
    derek80  
       2025 年 12 月 15 日
    组合起来用,我用 glm4.6 写写文档,修修语法和测试问题。
    veni2023
        29
    veni2023  
       2025 年 12 月 15 日
    ds 起码生产的 code 小修改下能跑起来
    yxc246800
        30
    yxc246800  
       2025 年 12 月 15 日
    我用 ds 写 matlab ,嘎嘎好使
    randm
        31
    randm  
       2025 年 12 月 15 日
    Qoder 代码提示不行,但执行还可以的。
    8355
        32
    8355  
       2025 年 12 月 15 日   ❤️ 1
    @sunny352787 太对了,当你在跟一个蠢的模型斗智斗勇半天的时候,再切换到一个聪明的模型一切都是顺理成章,得出结论就是这蠢东西根本没法用,我都用上 ai 了我还要写一堆东西来防止他出问题,整个就是本末倒置,白送都不用。
    maix27
        33
    maix27  
       2025 年 12 月 15 日
    It's a weekly question...
    bs10081
        34
    bs10081  
       2025 年 12 月 15 日
    @Saunak 用 Claude Code 的話,他自己會切換,plan mode 的時候用 Opus ,其他時候執行用 Sonnet
    icyalala
        35
    icyalala  
       2025 年 12 月 15 日
    直接御三家 GPT/Gemini/Claude 最近的一两代模型
    本来 AI 就是拿来提效的,不要让 AI 反过来浪费你自己的时间
    herun
        36
    herun  
       2025 年 12 月 15 日 via Android
    试过 kimi-k2 写前端,80%的情况下写的代码可用,不过有时候会不按要求来写代码,这时候切换到 Claude Sonnet ,一次提示就搞定了
    momo31
        37
    momo31  
       2025 年 12 月 15 日
    only chatgpt claude
    vevlins
        38
    vevlins  
       2025 年 12 月 15 日
    日常工作主力开发 glm 4.6 超过两个月,没觉得 claude 有什么显著优势,我用 glm 做不好的任务交给 claude 也就那样。
    mmdsun
        39
    mmdsun  
       2025 年 12 月 15 日 via iPhone
    国产模型现在没那么差,GLM 还可以其他没有用过。
    fcten
        40
    fcten  
       2025 年 12 月 15 日
    用了一段时间 Qwen Code ,我的结论是完全可用。我自己把控架构,细节交给它。提效还是很明显的。

    如果你想把 AI 当 CTO 来用那 Qwen Code 确实还不行。就算它能行我也不敢发布上线啊,毕竟出了问题是我背锅不是 AI 背锅。

    另外 Qwen Code 免费。让我花钱上班那是不可能的。
    dreamkuo
        41
    dreamkuo  
       2025 年 12 月 15 日
    我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命 ------------- 我认可这个观点
    HaibaraDP
        42
    HaibaraDP  
       2025 年 12 月 15 日
    别折磨自己了,用来编程一个都不行,就算免费它也得能干活才行
    evilgod528
        43
    evilgod528  
       2025 年 12 月 15 日
    @Saunak 日常主力就是 codex gpt5 ,sonnet 我感觉用下来没有 gpt5 质量好,gemini2.5pro 删过我项目心有余悸
    streamrx
        44
    streamrx  
       2025 年 12 月 15 日 via iPhone
    都是垃圾。别浪费自己的时间
    brookegas
        45
    brookegas  
       2025 年 12 月 15 日
    我现在的模式是,Claude Opus 4.5 给方案
    Deepseek v3.2 执行

    Minimax M2:刚开始我是它的粉丝,尤其是看到 openrouter 上它在 Cline 选用的模型里排前三,往往仅次于 Claude 家(现在又来了 Gemini 3pro ),这是老外每天真金白银投出来的,不过上次被它无声无息把我的文件删掉重写,所有的样式都按它的想法重改了以后,就不太敢用了。希望它的新版本改进些吧,我还会试用的!

    Deepseek v3.2:12 月 1 日更新的这个版本运行得很好,速度飞快,而且实在太便宜了,便宜得我用得都不好意思了。跟 Claude 这种血盆大口贪婪吞噬我钱钱的怪兽相比,Deepseek 简直是慈眉善目的大善人!它真正的缺点很少有人提到,就是上下文窗口从 1 月发布到 12 月都没有增长过,一直只有 128K !导致我必须把任务拆细了喂给它,不能给整坨的,不过这样也好,保持了自己对整个代码的掌控感。

    每次我想指责 Deepseek 的时候,看了它清一色的清北浙科南组成的开发团队名单,就讪讪地把话吞了回去,哈哈!
    gegeligegeligo
        46
    gegeligegeligo  
       2025 年 12 月 15 日 via Android
    @sunny352787 opus 还是太贵了,没必要,就用普通的 4.5 就行了
    kaesi0
        47
    kaesi0  
    OP
       2025 年 12 月 15 日
    @abc0123xyz 目前在用
    kaesi0
        48
    kaesi0  
    OP
       2025 年 12 月 15 日
    @sunny352787 这么绝对的么
    securityCoding
        49
    securityCoding  
       2025 年 12 月 15 日 via Android
    我在用企业版 cusor ,唯一真神是 opus 其次是 sonnet ,gpt5.2 跟 gemini3pro 都差点意思
    kaesi0
        50
    kaesi0  
    OP
       2025 年 12 月 15 日
    @cleveryun tare 和 iflow 给钱了啊
    kaesi0
        51
    kaesi0  
    OP
       2025 年 12 月 15 日
    kaesi0
        52
    kaesi0  
    OP
       2025 年 12 月 15 日
    @Wh1t3zZ 貌似运维的活也也干得好
    kaesi0
        53
    kaesi0  
    OP
       2025 年 12 月 15 日
    简单总结下本周 PK 结果:

    一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距,如果是奔着出活儿去的,就选择这三家模型,首推 Claude Opus ,缺点就是价格太高。

    当然国产大模型也不是全军覆没

    GLM-4.6 口碑不错,用来做调度还是小任务可以胜任,但是最近降智明显 @midsolo @defaw @vevlins @derek80

    Qwen3-Coder 完成一些独立模块可用,写 Rust 感觉也写得不错 @Wh1t3zZ

    DeepSeek-V3.2 做小修改,matlab 可以胜任 @veni2023 @yxc246800

    kimi-for-coding

    建议的工作方式:用 GPT Claude Gemini 给你出方案,让国产 llm 干活 @usVexMownCzar @brookegas

    感谢各位大佬的反馈~
    uuundefined
        54
    uuundefined  
       2025 年 12 月 15 日
    御三家降智了是垃圾, 国内的满智都是垃圾。。。一点点差异就会让误差越来越大, 啥时候真的能无视 token 的多 agent 互相协作监督才行
    linch97
        55
    linch97  
       2025 年 12 月 16 日
    @seven777 豆包排前面你认真的?国产模型编码能力前几位再怎么也排不到豆包啊
    wanghoi
        56
    wanghoi  
       2025 年 12 月 16 日
    你看 SWE-Bench Verified 排名就是了:
    排第一的大模型不是国外的,是国产:TRAE + Doubao-Seed-Code
    skuuhui
        57
    skuuhui  
       2025 年 12 月 16 日
    没有不行的模型,只有不行的人。1.不要相信任何网站上的实验室数据。2.针对模型调整合适的 ai coding 范式。3. transformer 架构的大模型一定是预测而不是真正“理解”。
    unco020511
        58
    unco020511  
       2025 年 12 月 16 日
    Qwen 吧,不过没用过国产模型来编程,没啥发言权
    edisonwong
        59
    edisonwong  
       2025 年 12 月 16 日
    gemini 是真神。让写了几个 ppt ,gemini 毫不夸张的说,我可以直接交上去,不用改。图片,文字都是上乘。qwen ,豆包啥玩意,生成的图片完全无法再 ppt 上使用,而且图片里带文字的错误的概率比 gemini 高多了
    neptuno
        60
    neptuno  
       2025 年 12 月 16 日
    不考虑价格的情况下,应该直接用国外大模型,套餐开到顶配
    kaesi0
        61
    kaesi0  
    OP
       2025 年 12 月 16 日
    @wanghoi 具体效果如何
    kaesi0
        62
    kaesi0  
    OP
       2025 年 12 月 16 日
    @edisonwong 图片这一块,gemini 目前是绝对领先了
    kaesi0
        63
    kaesi0  
    OP
       2025 年 12 月 16 日
    @neptuno 确实是,有朋友就这么用,oups 顶到用,就没有这么多烦恼
    catamaran
        64
    catamaran  
       2025 年 12 月 16 日
    @edisonwong 国外的模型能加中文吗?我试了下全是乱码
    edisonwong
        65
    edisonwong  
       2025 年 12 月 16 日
    @catamaran #64 不行
    Wkj1998
        66
    Wkj1998  
       2025 年 12 月 16 日 via Android
    不考虑价格的情况下还是支持 GPT 、Claude 。国内是能用,国外是好用
    chspy
        67
    chspy  
       2025 年 12 月 17 日
    国产主打的性价比,ds 、m2 这些用起来也没那么差,就是用的人多自然就会降点智,我的体感是拆分一些小任务走,准确度会高点。但说白了不管用国内国外最后都得自己把关,还没有能完全相信的。国产的话我是用 PPIO ,没什么阉割感,有需要的可以拿我的 WF34BQ 注册领试用。
    zxjxzj9
        68
    zxjxzj9  
       2025 年 12 月 17 日
    肯定是御三家最强。实际体验综合价格现在反而是被喷的最多的 openai 家最好,尤其是 5.2 一下上下文拉的超级大,很多时候可以不仅只是写代码,还能写那种非标准代码的自定义规则表达式,准确度比起之前的各种模型提升真的超大,真的是帮大忙了
    Gilfoyle26
        69
    Gilfoyle26  
       2025 年 12 月 17 日
    @sunny352787 #4 Big 胆!敢说国产大模型全是垃圾,此等逆天言论,难道 OP 就不怕天威降临吗?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   825 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:33 · PVG 04:33 · LAX 12:33 · JFK 15:33
    ♥ Do have faith in what you're doing.