[LLM] 有哪位大佬指点下如何在 cpu 上分布式推理

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 793 天前的主题，其中的信息可能已经有所发展或是发生改变。

我有很多 32 核的 cpu 机器，想要跨这些机器使用所有的 cpu 算力进行推理。
这个该怎么做啊？

是不是部署 k8s 集群就可以，还是有更简单的办法？

还是说用分布式的 spark 等计算框架？但是具体该怎么搞呢。没头绪

第 1 条附言 · 2023 年 11 月 16 日

场景是跑开源大语言模型

8 条回复 • 2023-11-20 13:20:29 +08:00

murmur

2023 年 11 月 16 日

你做科学计算么，有的科学计算是 cpu 运算+大内存，不过也不是用框架，直接买现成的软件，比如电磁学的 feko

rizon

2023 年 11 月 16 日

@murmur #1 我就是想跑大模型

lozzow

2023 年 11 月 16 日

@rizon 可以尝试下 ray ，理论上是支持 transformer 模型的，但是怎么做，我也就看了个文档

israinbow

2023 年 11 月 17 日

TorchServe 或者黄核弹的 TensorRT? 我们做边缘计算的还有用 ONNX 的, 挑一个吧🫡

max1911

2023 年 11 月 17 日

op 可以试试 ggml 库重新，基于 ggml 上的项目 llama.cpp ，可以实现用 C++运行语言模型

max1911

2023 年 11 月 17 日

max1911

2023 年 11 月 17 日

t133

2023 年 11 月 20 日 via iPhone

大矩阵的乘法除非你有 infiniband 并行效率惨不忍睹