模型有时会很快返回并且结果错误是什么原因？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 370 天前的主题，其中的信息可能已经有所发展或是发生改变。

同样的 prompt ，同样的环境(同一个 service ，没有重启。模型、机器相同，temperature=0 ，top_k=1)，大部分情况返回结果是正常的。但发现偶尔会发生返回结果不正常，并且返回比正常的速度要快，正常返回需要大概 5s ，不正常的返回大概 2s 。请问有哪些因素会造成这种情况？

错误

速度

因素

3 条回复 • 2025-01-08 09:04:03 +08:00

dddd1919

2025 年 1 月 8 日

模型伐开心，喂点笑话

frankyzf

2025 年 1 月 8 日

忘了说，是用的 vllm 作为推理框架

halov

2025 年 1 月 8 日

缓存呢