V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kdbtg91
V2EX  ›  OpenAI

如何评价 OpenAI 的 o3?

  •  
  •   kdbtg91 · 28 天前 · 3337 次点击

    看测评,推理能力有很大进步,自适应思考模式还行,但是推理成本确实有点太高了。如果有申请到安全测试的欢迎说一下使用感受。

    25 条回复    2024-12-22 14:14:12 +08:00
    yzding
        1
    yzding  
       28 天前
    OpenAI 继续这种 ppt 发布迟早被超
    coefuqin
        2
    coefuqin  
       28 天前
    @yzding 一直引领业界前进的方向,新的 idea 都是他们整的,怎么超?
    gaobh
        3
    gaobh  
       28 天前 via iPhone
    太贵,没卵用
    argsno
        4
    argsno  
       28 天前
    为了发而发
    paopjian
        5
    paopjian  
       28 天前
    挺可怕的, 这才三年吧, 三年时间, AI 已经可以追上一个"普通"人类的心智水平, 感觉办公室白领的很多工作一定会被去掉, 只是成本的问题了. 真正的科技革命
    nicaiwss
        6
    nicaiwss  
       28 天前 via iPhone
    普通人能做的就是买点相关股票
    SenLief
        7
    SenLief  
       28 天前
    @paopjian openai 最先替代的应该是程序员吧,它在程序推理上已经强过大部分的程序员了。办公室白领这种恰恰很难被替代,因为主要是人情世故,而不是理论。
    yzding
        8
    yzding  
       28 天前
    @coefuqin 首先 OpenAI 离职了一批核心人员,还有最近 Google 那个 ai studio 试试看,感觉就是为狙击 OpenAI 200 美元套餐的,Google 给开发者用这个还完全免费效果好
    trungdieu031
        9
    trungdieu031  
       28 天前   ❤️ 1
    超级强,距离上一代 o1 进步巨大。 那些说是画大饼没啥用的我只能说你们开心就好~
    如果你对报告里那些测试集有个大概的认识,就会知道这种进步意味着什么。别的不说就拿 frontier math 这种一下从完全不会到 25% 的真确率,arc-agi 这种专为 AI 设计的难度考题一次性从 35% 上升到 75% ...
    看来 Sora 期货带来的后遗症太强了,导致现在 OpenAI 一有延迟发布的动向都会被说搞期货 ~
    长远来看 ( 10 年内),AI 取代 99% 人的工作是板上钉钉的事~
    vfx666
        10
    vfx666  
       28 天前 via iPhone
    @trungdieu031 到时候都是机器人上班,共产主义时代真的要来了吗🤓
    haiku
        11
    haiku  
       28 天前
    @trungdieu031 看看 Google 和 Claude 会不会跟进,推理成本太高了,英伟达芯片看起来又供不应求了
    youthfire
        12
    youthfire  
       28 天前 via iPhone   ❤️ 1
    o1 和 claude3.5 sonnet 1022 伯仲间,价格却直接翻了 10 倍,关键还特别慢,这 o3 价格还不上天了。Openai 现在 ppt 能力在不断上升,成品看起来不是那么尽如人意。几家里面,它家是最喜欢动态调整算力的,产品总是比发行时拉垮很多,有机会用上第一批成品的都会有这个感觉。开满算力的 gpt4 并不比现在的 4o 差多少。所以 o3 理论上会很强,实际推出后应用不看好。
    Sharuru
        13
    Sharuru  
       28 天前
    每次都是发新模型,然后老模型就变笨。
    trungdieu031
        14
    trungdieu031  
       28 天前
    @haiku 从报告上看,目前推理成本太高确实是最大的问题。
    但我对推理成本的下降持乐观态度。至少在 2030 年之前,gpu 的推理成本是稳步下降的,我直观体验上至少比摩尔定律描述的下降速度要快。
    给个不精确数字的话,我感觉每年推理成本至少比前年下降 1/4 ~
    idblife
        15
    idblife  
       28 天前
    还没人能用上呢,如何评价?
    你是骗回复的吧
    trungdieu031
        16
    trungdieu031  
       28 天前
    @youthfire o1 整体上还是要强于 claude3.5 的。 目前 llm 领域的顶级三家 OpenAI , Google, Anthropic 的模型,OpenAI 整体推理能力最强,幻觉最少,Anthropic 的对齐最好,最有人格化特征,在情感哲学方面体验最好,编程方面因为 finetune 过,也是在目前可用的最强梯队,Google 新出的 gemini2.0 版本多模态能力最强,应该对档的 O 和 A 家下一代基础大模型。
    o1 代表了 RL + LLM 新范式。在能用基础模型解决的问题上没有显著的优势。只有长链的推理能力才能体验优点 ~
    Donaldo
        17
    Donaldo  
       28 天前
    @vfx666 #10 步子迈的太快的话,会有很长的阵痛期。。
    openmynet
        18
    openmynet  
       27 天前
    o1 到 o3,性能是线性增长,成本却是指数增长。
    mumbler
        19
    mumbler  
       27 天前
    如果是真的,贵不是问题,就怕跟 sora 一样根本达不到宣传效果,卖期货,拖一年拿出来发现低于市场上其他产品
    asanelder
        20
    asanelder  
       27 天前
    @trungdieu031 有生看到共产主义,太兴奋啦!!!
    iloveoovx
        21
    iloveoovx  
       27 天前   ❤️ 4
    洗脑真牛逼,还有这么多人对恐怖的共产主义感到兴奋
    midstream
        22
    midstream  
       27 天前
    生产里解决不了问题的还是解决不了,之前 o1 能解决的可能使用体验会更好点,总之用处不大
    macwenbo
        23
    macwenbo  
       27 天前
    程序员先从自身开始革命,正义且有说服力。锻炼好身体,准备以后从事体力劳动了。
    nrtEBH
        24
    nrtEBH  
       27 天前
    一个有经验的高级 sde 加上 o3 取代掉十几个初级 cruder 完全没问题
    所有月薪 1.5w 以下的程序员要开始考虑换行业了
    yukino
        25
    yukino  
       27 天前
    等哪天 OpenAI 的模型证明了黎曼猜想再说
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2989 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 06:40 · PVG 14:40 · LAX 22:40 · JFK 01:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.