V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  neteroster  ›  全部回复第 1 页 / 共 43 页
回复总数  852
1  2  3  4  5  6  7  8  9  10 ... 43  
12 天前
回复了 xuanwu 创建的主题 分享创造 本地推理比 Gemini 3 flash 快百倍例一
没看懂这是要比啥,语言模型和逻辑编程语言是两个完全不同的物种吧。那我还能说计算器能几 ns 算一个乘法,大模型慢得多呢,何意味...
2025 年 12 月 22 日
回复了 c3de3f21 创建的主题 Local LLM Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题?
不要折磨自己了,你这个又不是什么强隐私相关需求。长上下文、rag 这种都是重 prefill ,高计算的负载,M 芯片最不擅长的领域就是这,首字慢到你怀疑人生,16G 内存能跑的模型长上下文注意力可想而知...
2025 年 12 月 21 日
回复了 Msxx 创建的主题 程序员 是我的错觉吗?感觉 Gemini 是个患有健忘症的玩意儿
@maolon Gemini 的 coding agent 就是不行,SWE 刷那么高,实际上一到实际工况里打不了 Opus 和 GPT 5.2 一点,毕竟 coding agent 起手就是 20+K ,再加上对指令遵循的强要求,都是 Gemini 的弱势区域
2025 年 12 月 20 日
回复了 Msxx 创建的主题 程序员 是我的错觉吗?感觉 Gemini 是个患有健忘症的玩意儿
Gemini 3 Pro 的有效上下文在 32K 左右,日常使用(特别是多轮对话) 20K 就可注意到显著的注意力和指令遵循下降,40K-50K 左右注意力崩溃。有趣的是,这甚至是相比 Gemini 2.5 Pro 的倒退。甚至 Gemini 3 Flash 也比 Gemini 3 Pro 有效上下文高。

这个问题关注到的人并不多,无脑吹反而更多。RP (角色扮演)社区是最先注意到这个问题的,他们在 Gemini 3 Pro 还未发布在竞技场匿名测试时就系统测试了其上下文能力,并通过体感立即注意到异常。
2025 年 12 月 16 日
回复了 YanSeven 创建的主题 程序员 Claude4.5,GPT5.2,Gemini3 pro 感官对比
GPT 5.2 (xhigh),长程 Agent 任务执行的新高度
2025 年 12 月 5 日
回复了 isbase 创建的主题 Google 各位觉得 Gemini 3 Pro 复杂编码表现如何?
Agent 编码的话,拉完了! Gemini 3 Pro 多轮对话 + (>20K 上下文) 的情况*几乎*是没法用的

当前推荐:

1. Claude Code / Cursor + Claude Opus 4.5
2. Codex + GPT-5.1 / GPT-5 / GPT-5-Codex-Max 或 Cursor + GPT-5 / GPT-5.1
2025 年 11 月 28 日
回复了 pmpmp 创建的主题 程序员 哈? LLM 的工具调用还能这么玩?!
其实 function call 或者 structure output 区别没那么大,推理后端没做约束解码的话,function call 的参数也不能保证准确... 做了约束解码的话,structure output 和 function call 都是保证准确的。

当然,唯一的例外的是,部分提供商只做了 function call ,或者只有 function call 用了约束解码
2025 年 11 月 28 日
回复了 fzdoudou 创建的主题 问与答 ChatGPT 订阅银行卡被拒绝
直接支付不支持大陆和香港卡,别想了
openrouter 不行,他那个 responses 是假的,无状态的。国内有一些中转是考虑了这个东西的,具体方法不明,据我粗略测试大多数应该是只开一个号,状态就不会有问题,还有少数*可能*做了状态管理
2025 年 10 月 18 日
回复了 MuskZhou 创建的主题 问与答 当前各大模型能力求推荐
Gemini 2.5 Pro / Sonnet 4.5 ,有耐心可以等 Gemini 3 ,大概率强 SOTA
2025 年 10 月 17 日
回复了 lengrongec 创建的主题 API 所谓的 AI 使用 API 的时候推理模式计算使用量疑惑
注意 Deepseek 的推理模式不兼容工具调用,出现工具调用后应该是会自动回退到 chat 模型
2025 年 10 月 13 日
回复了 littlemis 创建的主题 问与答 请问推荐哪个 AI 可以帮忙看视频做总结或是转文字?
目前原生视频多模态做的还行的也就 Gemini
2025 年 9 月 24 日
回复了 yb2313 创建的主题 程序员 最近有收到 github 一个 bot 发布的钓鱼链接吗
有的,通知还会出现去不掉的情况,如 @eagleoflqj 所说。解决方法也很简单

1. 先去设置,开发者设置那里生成一个 classic 的 token

2.
读通知

curl -L \
-H "Accept: application/vnd.github+json" \
-H "Authorization: Bearer <YOUR-TOKEN>" \
-H "X-GitHub-Api-Version: 2022-11-28" \
https://api.github.com/notifications

记下垃圾未读通知的 ID

3. 把他删掉

curl -L \
-X DELETE \
-H "Accept: application/vnd.github+json" \
-H "Authorization: Bearer <YOUR-TOKEN>" \
-H "X-GitHub-Api-Version: 2022-11-28" \
https://api.github.com/notifications/threads/THREAD_ID
CC 一早火出圈,影响力自然大,这就跟一开始很多人听到 AI 听到 LLM 就是 ChatGPT 类似。

而且 codex cli 现在还相对没那么成熟,前段时间才重构到 rust ,现在还在快速迭代的阶段,不过已经算是能用
2025 年 8 月 28 日
回复了 feimo1996 创建的主题 程序员 各位有买 openrouter 的没?几个问题想咨询下。
@aur3l14no 确实,其实 new-api 也有提供透传模式,但是中转用的不多;普通模式这一段时间的改动都是往通用化发展,减少了很多严格的参数限制,除了一些计费强相关的和边缘情况(有一些功能需要重写请求的部分参数)。所以看起来还是往好的方向发展的,不过像 Responses API 这样有状态的 API 中转由于是号池估计还是不太好处理,要单独维护状态,可能要一些更先进的方案了。

---

这个我也不懂了,大概是要赚钱吧(
2025 年 8 月 28 日
回复了 feimo1996 创建的主题 程序员 各位有买 openrouter 的没?几个问题想咨询下。
@aur3l14no 特性这方面考虑到 new-api 所做的努力反而国内很多站支持更好,只要用 new-api 新版+渠道没问题特性支持都很好(基本和官方 API 体验差不多,除非一些 edge case ,比如 Gemini 的大视频上传 Files API 就大都不支持)。推荐的话,非广告且不负责任的推荐个 aihubmix 吧,他家在新特性方面相对前卫,但还是随用随充防止跑路
2025 年 8 月 28 日
回复了 feimo1996 创建的主题 程序员 各位有买 openrouter 的没?几个问题想咨询下。
1. 稳定性没什么问题
2. 一般吧,充值手续费不低

还有一个就是 OpenRouter 特性不太好,OpenAI 模型不支持 Responses API ,也没有 Claude 和 Gemini 原生接口,能接受用用还行
2025 年 8 月 18 日
回复了 ChatGOP 创建的主题 问与答 AI 创业公司还得看米国和法国,东大只是打 AI 工的多
Mistral... 别说和 Qwen GLM 什么的比,之前随手试过几次他们所谓的 SOTA 级别推理模型,我也没上什么难题,输出结果还是令人让忍俊不禁
2025 年 8 月 17 日
回复了 seraphlz 创建的主题 OpenAI GPT5 非推理模型相对 GPT4.1 有什么优势
chat 版,也就是非推理版,进步不大,不过比 4.1 还是强一点,但不多,日常简单问题可以用,其他都推荐推理版
@iyaozhen

> 不是给一个 schema 让模型去生成一个 json 再修语法。而是使用已有的数据(非 json 的 output ),往 schema 上填。

可以很明确的说并不是这样的,各大开源推理引擎都有相关实现可以参考。

---

来具体捋一下:

guided decode 可以确保模型生成的内容满足 json schema (前提是生成会终止),但是“让模型知道我要按某个 schema 输出 json” 是提示词(或者说上下文)做的事。

有的厂商,例如 OpenAI 和火山,他会告诉你:你直接在参数里给我传 schema 就行了,prompt 里不用说我要这个 json ,关注业务就好。这里,它们实际做的事是:在你的 prompt 后面或者在系统提示词里,按一定格式(可能有针对训练固定格式,也可能是直接拼接 prompt )告诉模型:下面这个是 schema ,你要按照这个生成,最后在 decode 时候由采样器强制规范,完成整个过程。实际上输入给模型的大多是这样的东西(示意)

<|user|>{你的 prompt} <|output_format|>JSON: {schema} <|assistant>

也可以参考 OpenAI 最近的开源模型,它的聊天模板里明确说了

Structured output

To control the output behavior of the model, you can define a response format at the end of the developer message with the following structure:

```
# Response Formats
## {format name}
// {description or context}
{schema}<|end|>
```

是加在系统提示里面的。最后结合推理引擎的 guided decode 生成。
1  2  3  4  5  6  7  8  9  10 ... 43  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5843 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 45ms · UTC 06:19 · PVG 14:19 · LAX 22:19 · JFK 01:19
♥ Do have faith in what you're doing.