同样的 prompt ,同样的环境(同一个 service ,没有重启。模型、机器相同,temperature=0 ,top_k=1),大部分情况返回结果是正常的。但发现偶尔会发生返回结果不正常,并且返回比正常的速度要快,正常返回需要大概 5s ,不正常的返回大概 2s 。 请问有哪些因素会造成这种情况?
1
dddd1919 2025 年 1 月 8 日
模型伐开心,喂点笑话
|
2
frankyzf OP 忘了说,是用的 vllm 作为推理框架
|
3
halov 2025 年 1 月 8 日 缓存呢
|