V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
YanSeven
V2EX  ›  程序员

Claude4.5,GPT5.2,Gemini3 pro 感官对比

  •  
  •   YanSeven · 11 天前 · 4105 次点击
    最近在摸鱼总结一些八股性的东西,我会根据同一个问题和主题,同时在 Web 网页上问这三个牛马:

    claude4.5 免费版
    gemini3 pro 是 ai studio 的免费版
    gpt5.2 是开通的 plus 会员的 thinking

    对比下来,感官上,gpt5.2 生成的文档,在文章结构和逻辑条理上会更加丰富一点。

    所以,仅就八股类的知识来说:
    我个感官上的排序就是:gpt5.2 >= gemini3 pro >= claude4.5

    仅作一点个人的小分享。
    28 条回复    2025-12-18 10:12:12 +08:00
    GlobalNPC
        1
    GlobalNPC  
       11 天前
    拿收费版去对比免费版吗?是不是有点不合理啊
    YanSeven
        2
    YanSeven  
    OP
       11 天前
    @GlobalNPC 是有点,但是我理解,收不收费应该是影响能不能用某个模型型号(或者限额)
    对于同一个模型型号,应该不会有能力上的差异吧,譬如 claude4.5 ,付费版和免费版在能力上会有差异吗
    13240284671
        3
    13240284671  
       11 天前
    写代码来说:
    claude4.5 > gemini3 pro > gpt5.2
    huage
        4
    huage  
       11 天前   ❤️ 1
    我觉得一个很重要的点,就是绝大部分人都不会使用 AI ,正确来说就是不会提问,包括我自己。

    重点来了:那么谁能够引导用户提供高质量的提问,那么谁就更能够为用户提供高质量的回答。

    目前观察 ChatGPT 正在往这方面改进,引导用户如何提问以获得更接近需求的提问。
    lanceran
        5
    lanceran  
       11 天前
    @YanSeven 会有影响,我开 Claude 付费就比 GPT 免费好用很多
    w568w
        6
    w568w  
       11 天前   ❤️ 3
    我最近使用 AI 最多的场景是做调研,例如:技术选型、框架推荐、报错的解决方案搜索等等。

    用的都是各自最好的模型( Claude 4.5 Opus 、Gemini 3 Pro 等等)。使用下来:Claude Research >>>> Grok DeepSearch > ChatGPT 深度研究 > Perplexity AI > Gemini DeepResearch >>>>> 国内一众 AI (如 Kimi 、豆包等的联网模式或 Agent 模式)

    点评:

    - Claude 的 Agent 系统实在太强了,很多调研我自己人工做,都没有它总结得全面

    - Grok 算是做得比较早的,但 Grok 4 不思进取,被 Claude 后来居上了。目前的质量只能说远远被 Claude 甩在身后

    - Gemini 模型本身强,但 Agent 系统做得一坨屎。DeepResearch 不如改名叫 LongReport ,任何一个简单的问题都要生成大段信息熵极低的调查报告,充满各种无用的套话、官话、废话,研究的意义和背景写得比研究结论还长,调查的覆盖面也很狭窄,稍微困难一点的问题几乎碰不到正确答案的边缘。像是公务员用来糊弄不懂技术的领导的

    - 国内的模型能力可能很强,但受限于合规性,只能调用国产搜索引擎,再加上信息孤岛化,Garbage in, garbage out ,搜索功能全是垃圾。别说是不常见的问题了,即使常见的问题 90% 也都是幻觉般的胡言乱语,可信度不超过 10%
    BernieDu
        7
    BernieDu  
       11 天前
    我自己写代码用下来 gemini3 pro(antigravity) > clude4.5 opus(cc) > 5.1-codex-max >= gemini3 pro(cli) > gpt5.2
    其中 gemini3 pro(antigravity) 和 clude4.5 opus(cc) 小上下文的修改质量差不多,超大上下文和大的修改量 gemini3 pro 表现更好,gpt 感觉工程能力不如这两家,一般就是改个方法找个错误会用
    BernieDu
        8
    BernieDu  
       11 天前
    Claude 打错了。。
    bytenoob
        9
    bytenoob  
       11 天前
    个人体感 不考虑价格
    gpt-5.2-xhigh > claude opus 4.5
    但是 gpt 非常慢
    YanSeven
        10
    YanSeven  
    OP
       11 天前
    @huage 是的,不会提问,一方面是更抽象的和专业无关的提问思考方式,方法论层面,一部分也是在专业领域上没有系统上的高屋建瓴一点的知识,那只能提一些笼统的含糊的甚至错误的问题。
    manwhatcanisay
        11
    manwhatcanisay  
       11 天前
    emmmm 标题加个“网页”吧
    毕竟大家干活都是在 IDE 不是吗,至少也是 CLI 吧
    然后跟网页不同的是,在 IDE 或者 CLI 场景下,模型需要结合对应工具才能发挥效果,比如 Claude code 和 codex 以及 gemini cli 或者 antigravity
    综合各方面考虑的话 claude code 目前就是独一档的存在啊
    encro
        12
    encro  
       11 天前
    claude 4.5 可是有三个版本啊。。。。。

    gpt 5.2 ,也是有 low,high,xhigh 等等

    gemini 也是有 low,hight 版本


    所以。。。


    很不公平,从我使用上来说,目前 opus 4.5 是最好的用的。
    felixcode
        13
    felixcode  
       11 天前
    @YanSeven
    ChatGPT 同一模型收费和付费的 context size 和推理 juice 值都不一样,有什么可比的。
    YanSeven
        14
    YanSeven  
    OP
       11 天前
    @felixcode 这样啊。。。我还以为只是限额这种层面的限制。
    bs10081
        15
    bs10081  
       11 天前
    claude-opus-4-5 > gemini-3-pro-preview > gpt-5.2
    BeFun
        16
    BeFun  
       11 天前
    实际测试过,付费和免费差距巨大
    wupeaking
        17
    wupeaking  
       11 天前
    我的体验是 Gemini 3Pro 最好用,不用它的 agent ,只用它的 API 和第三方的 agent 。 代码出现的问题它能迅速指出了原因,也不会随波逐流,有时候我对它提出质疑它也能坚定回答。
    neteroster
        18
    neteroster  
       11 天前   ❤️ 1
    GPT 5.2 (xhigh),长程 Agent 任务执行的新高度
    LuckyCurve
        19
    LuckyCurve  
       11 天前
    @YanSeven 会的,对接过 OpenAI 的接口都能看到有一堆参数可以去设置的。
    LuckyCurve
        20
    LuckyCurve  
       11 天前
    如果不是编码场景,我现在更关注输出速度了,比如 Gemini 2.5 flash ,结合自己判断有问题就再问,多轮对话下来效果也不错。
    MindMindMax
        21
    MindMindMax  
       11 天前
    测试题:"大豫通宝是啥?"
    gemini3 白扯。
    darksword21
        22
    darksword21  
    PRO
       11 天前
    不用比,claude 默认秒全
    microscopec
        23
    microscopec  
       11 天前
    gpt 和 gemini 挺能吹,如果有个能吹榜这两能较个搞下。
    但实际使用,claude 妥妥的第一,claude 的缺点就是藏的太深了,酒香也怕巷子深
    lixintcwdsg
        24
    lixintcwdsg  
       10 天前
    opus 额外有一个速度优势,这点在写代码太有用了。
    当然,你要是问答拿 claude 的免费版不应该加入进来比较
    jsq2627
        25
    jsq2627  
       10 天前
    写代码还是 claude 最强,agentic 能力最好,三方 ai 插件 (cursor, augment 等等) 的工程优化也是优先对 claudu 调优。
    kneo
        26
    kneo  
       10 天前 via Android
    gpt 升级到 5.2 之后一直拉。claude sonnet 4.5 最近也像个弱智一样。这两个都是大多数情况其实也还能用,但是下限极低,离谱的时候让你怀疑人生。

    Gemini 倒是一如既往的稳。

    个人印象。
    nakun233
        27
    nakun233  
       10 天前
    claude 现在要用 opus4.5 ,爽上天,GPT 不知道为什么编程像个弱智一样,你期望他完成 100%的工作,他总做到 80%漏一些,其他模型如 claude 、gemini 能做到 120%给你做好容错或者一些小细节。GROK 的 code 也比 GPT5.1code 强
    lijianmin321
        28
    lijianmin321  
       9 天前
    这个对比不算严谨吧,付费比免费,而且他们各自有不同版本的...但是自己用你就选个性价比高的,适配你的使用场景的就行。写代码还是喜欢 Claude ,opus 真不错,但我用的是接口 AI 中转,我觉得性能没有明显阉割的,需要的可以拿我的码 YGHNZ0 领试用额度
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2614 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 15:05 · PVG 23:05 · LAX 07:05 · JFK 10:05
    ♥ Do have faith in what you're doing.