V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
asd999cxcx
V2EX  ›  程序员

吐槽下,感觉国产模型/Agent 不靠谱

  •  
  •   asd999cxcx · 10 天前 · 3062 次点击
    我们现在有一个 react 的原型( AI 生成的)想把它转成鸿蒙 APP(目标 API 14 以上),同样的提示词、同一个内容,gpt5.1 ,5.2 已经差不多 2~3 次就解决了编译错误,开始进行其他功能上的开发了。minimax-m2 、kimi 、doubao 还在那里来来回回改编译报错语法的问题,GLM4.6 甚至陷入循环。问题越来越多,本来一开始双方都只有 200+个 ERROR ,改到后面 kimi 、minimax-m2 已经到了 800+个 ERROR 了....
    用的 trae 、roo code 、kilo code ,trae 一直这样,roo code 、kilo code 勉强好点,ERROR 数量在下降。
    话说国产模型应该对鸿蒙一类的支持更好才对吧,为啥会这样?
    23 条回复    2025-12-24 10:39:09 +08:00
    kewang
        1
    kewang  
       10 天前   ❤️ 1
    感觉国产模型没有一个能打的
    asd999cxcx
        2
    asd999cxcx  
    OP
       10 天前
    @kewang 感觉不是很稳定,有时候正常主流开发任务没啥问题,有时候又感觉像突然降智一样,反复改东西也改不好
    asd999cxcx
        3
    asd999cxcx  
    OP
       10 天前
    最新进展:不知道是晚上用的人少了还是什么情况,使用 minimax-m2 修复了 4 次,完成全部错误修复,现在进行下一步开发,agent 为 roo code
    w574495524
        4
    w574495524  
       10 天前
    幻觉太重了
    1una0bserver
        5
    1una0bserver  
       9 天前 via Android
    想多了,如果你用过就知道,对鸿蒙支持最好的反而是 Claude ,其次是 GPT 和 Gemini ,国内的都基本没更新过鸿蒙的训练资料。而且你都用 react 了,不如直接迁移到 react native 。鸿蒙的生态基本没有,开发难度会很高,而且对于 ai 来说没有 react native 熟悉。
    1una0bserver
        6
    1una0bserver  
       9 天前 via Android
    还有 trae 国内版明显存在降智,同样模型无论是响应速度还是质量都比其他 ide 的要差,更不如付费的国际版,怀疑拿其他模型以次充好。而且 trae 的提示词存在明显问题,用默认 solo 模式只能开发前端,一写其他方面的代码就非常差,哪怕是 Gemini 3 pro ,后来我自己定义 agent 用 spec coding 后,效果提升了非常多
    nananqujava
        7
    nananqujava  
       9 天前
    @1una0bserver #6 怎么定义 agent 用 spec coding
    nananqujava
        8
    nananqujava  
       9 天前
    国产模型变成就最新的 DeepSeek 还行, 其他都是垃圾, kimi 勉勉强强也看什么语言 ,GLM4.6 降智严重
    defaw
        9
    defaw  
       9 天前
    模型没资料就得用 context7 mcp, 写 kotlin multiplatform 的经验之谈
    jacketma
        10
    jacketma  
       9 天前
    大模型能力这种玄而又玄的问题,使用起来却是切实可见的差距。
    都说全网的数据各家不是都搜集齐了吗?要么是算法上不行?还是老黄的卡真有魔力?
    YanSeven
        11
    YanSeven  
       9 天前
    国产的卡在质量和规模上应该和老外的没法比。算法上到不觉得能差多少。纯直觉,无参考。
    bbbblue
        12
    bbbblue  
       9 天前
    因为依赖抽卡的
    抽卡第一梯队的可能抽的次数会少点 正确率高 但是差一点的模型正确率低要多抽
    同一个问题同样的模型 也会有时候做不对有时候又能做对😂

    用 cc 也是 他做不对了 就 git 滚回去 再开一次 有时候就能做对了
    nosilence
        13
    nosilence  
       9 天前
    “话说国产模型应该对鸿蒙一类的支持更好才对吧,为啥会这样?”
    你这个假设就是错误的,鸿蒙相关的根本没多少高质量的训练语料
    yiqiao
        14
    yiqiao  
       9 天前
    还是模型对鸿蒙的资料太少了导致容易幻觉。
    m1nm13
        15
    m1nm13  
       9 天前
    鸿蒙? 有训练数据吗就要改鸿蒙
    tlerbao
        16
    tlerbao  
       9 天前
    把感觉去掉,国产=垃圾,浪费生命
    asd999cxcx
        17
    asd999cxcx  
    OP
       9 天前
    @1una0bserver gpt 感觉 plus 的订阅完全不够用...两天就只剩 20%了,用的 5.2 high ,我一点也没接触过 react,那个是技术领导自己用 youwave 生成的。如果转 rn 会有啥特别的坑吗? trae cn 的 agent 提示词我觉得根本没用,我新建了几个智能体,根本不按我的规定的角色走。
    @nananqujava kimi 之前砍价开过会员,感觉不如 iflow 的 glm 开思考,同一个问题同一个提示词,iflow 一两次解决了,kimi 改了不下四五次还有问题。
    @defaw 用了呀,我还特地强调,在编码前用 context7 mcp 服务查询确保代码准确性,但是还是一堆问题。
    @jacketma 我感觉跟使用时间有关系,有的时间段某家人多就会导致智力跟不上
    @YanSeven 现在国内的基本上国产卡了吗?我还以为还是老黄的卡用的多。
    @bbbblue 不太了解这方面,我以为是几个卡组成算力池,就算卡差,算力总量在那儿结果也不会差。
    @nosilence 我说的更好相对来说,因为个人柑橘鸿蒙开发还是国内为主,因此训练语料啥的会更多点
    @m1nm13 只是普通搞个 APP ,提高门槛,国企嘛,你懂的
    @yiqiao 我看了下他们的报错,基本上都是什么变量、组件定义的位置不对,用的方法调错位置啥的。头大
    bbbblue
        18
    bbbblue  
       8 天前
    @asd999cxcx 不是 我说的抽卡 是指大模型结果随机 有时能不能做出题看脸 就像手游里抽卡一样
    同一个题 第一梯队的模型更容易做对(但也可能做不对 有概率) 但是差点的模型多试几次也可能做对

    不是说计算的卡 😂
    1una0bserver
        19
    1una0bserver  
       8 天前 via Android
    @asd999cxcx 首先不要用国内版,模型垃圾用什么也作用不大,只有 auto 模式还勉强可以( ps. auto 模式应该不是国内模型,同时含有中英文的请求回复时一般为英文,符合国外模型特点,代码风格也不一样,效果要好一点)
    1una0bserver
        20
    1una0bserver  
       8 天前 via Android
    @nananqujava speckit 或者 openspec ,选他们教程,选最下面通用那个,然后把 agent.md 里的内容作为角色定义复制进对话框,注意不要用 ai 生成
    hengxiangbianhua
        21
    hengxiangbianhua  
       7 天前 via Android
    相同的模型也是有时候聪明有时候愚蠢
    wengjin456123
        22
    wengjin456123  
       7 天前
    我发现现在很多人都在说 GLM4.6 弱智,我本人用的 lite 套餐,基本你如果需要模型帮你理清楚逻辑,GLM4.6 会乱来,你必须说清楚你要什么,逻辑是什么,上下文是哪些,这样的 GLM4.6 执行力目前我用下来算是国产第一,和 claude sonnet 4.5 没区别,因为本人白天用 claude opus/sonnet 4.5 (外企单独的 api ,无限量) 给公司干活,下班了用 gemini3pro 和 自己分析需求解构需求后,给 GLM4.6 ,能省不少时间....,只能说 claude 在你说的不是很清楚的情况下也会乱来但是好很多,但是价格差太大了
    lijianmin321
        23
    lijianmin321  
       3 天前
    国产主打性价比,然后拆解小任务做比较适合,鸿蒙没数据吧,难搞哦。当然实打实排名我还是忠实的 opus 用户,不过是接口 AI 的中转,Claude 这个封号太变态了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2647 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:40 · PVG 20:40 · LAX 04:40 · JFK 07:40
    ♥ Do have faith in what you're doing.