如何评价 OpenAI 的 o3?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 396 天前的主题，其中的信息可能已经有所发展或是发生改变。

看测评，推理能力有很大进步，自适应思考模式还行，但是推理成本确实有点太高了。如果有申请到安全测试的欢迎说一下使用感受。

openai

推理

26 条回复 • 2025-05-22 03:27:51 +08:00

yzding

2024 年 12 月 21 日

OpenAI 继续这种 ppt 发布迟早被超

coefu

2024 年 12 月 21 日

@yzding 一直引领业界前进的方向，新的 idea 都是他们整的，怎么超？

Solix

2024 年 12 月 21 日 via iPhone

太贵，没卵用

argsno

2024 年 12 月 21 日

为了发而发

paopjian

2024 年 12 月 21 日

挺可怕的, 这才三年吧, 三年时间, AI 已经可以追上一个"普通"人类的心智水平, 感觉办公室白领的很多工作一定会被去掉, 只是成本的问题了. 真正的科技革命

nicaiwss

2024 年 12 月 21 日 via iPhone

普通人能做的就是买点相关股票

SenLief

2024 年 12 月 21 日

@paopjian openai 最先替代的应该是程序员吧，它在程序推理上已经强过大部分的程序员了。办公室白领这种恰恰很难被替代，因为主要是人情世故，而不是理论。

yzding

2024 年 12 月 21 日

@coefuqin 首先 OpenAI 离职了一批核心人员，还有最近 Google 那个 ai studio 试试看，感觉就是为狙击 OpenAI 200 美元套餐的，Google 给开发者用这个还完全免费效果好

trungdieu031

2024 年 12 月 21 日

超级强，距离上一代 o1 进步巨大。那些说是画大饼没啥用的我只能说你们开心就好~
如果你对报告里那些测试集有个大概的认识，就会知道这种进步意味着什么。别的不说就拿 frontier math 这种一下从完全不会到 25% 的真确率，arc-agi 这种专为 AI 设计的难度考题一次性从 35% 上升到 75% ...
看来 Sora 期货带来的后遗症太强了，导致现在 OpenAI 一有延迟发布的动向都会被说搞期货 ~
长远来看（ 10 年内），AI 取代 99% 人的工作是板上钉钉的事~

vfx666

2024 年 12 月 21 日 via iPhone

@trungdieu031 到时候都是机器人上班，共产主义时代真的要来了吗🤓

haiku

2024 年 12 月 21 日

@trungdieu031 看看 Google 和 Claude 会不会跟进，推理成本太高了，英伟达芯片看起来又供不应求了

youthfire

2024 年 12 月 21 日 via iPhone

o1 和 claude3.5 sonnet 1022 伯仲间，价格却直接翻了 10 倍，关键还特别慢，这 o3 价格还不上天了。Openai 现在 ppt 能力在不断上升，成品看起来不是那么尽如人意。几家里面，它家是最喜欢动态调整算力的，产品总是比发行时拉垮很多，有机会用上第一批成品的都会有这个感觉。开满算力的 gpt4 并不比现在的 4o 差多少。所以 o3 理论上会很强，实际推出后应用不看好。

Sharuru

2024 年 12 月 21 日

每次都是发新模型，然后老模型就变笨。

trungdieu031

2024 年 12 月 21 日

@haiku 从报告上看，目前推理成本太高确实是最大的问题。
但我对推理成本的下降持乐观态度。至少在 2030 年之前，gpu 的推理成本是稳步下降的，我直观体验上至少比摩尔定律描述的下降速度要快。
给个不精确数字的话，我感觉每年推理成本至少比前年下降 1/4 ~

idblife

2024 年 12 月 21 日

还没人能用上呢，如何评价？
你是骗回复的吧

trungdieu031

2024 年 12 月 21 日

@youthfire o1 整体上还是要强于 claude3.5 的。目前 llm 领域的顶级三家 OpenAI , Google, Anthropic 的模型，OpenAI 整体推理能力最强，幻觉最少，Anthropic 的对齐最好，最有人格化特征，在情感哲学方面体验最好，编程方面因为 finetune 过，也是在目前可用的最强梯队，Google 新出的 gemini2.0 版本多模态能力最强，应该对档的 O 和 A 家下一代基础大模型。
o1 代表了 RL + LLM 新范式。在能用基础模型解决的问题上没有显著的优势。只有长链的推理能力才能体验优点 ~