Apple 统一内存适合运行 LLM？理想很丰满，现实很骨感

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 437 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://blog.hjc.im/apple-uma-for-llms-problems.html

Apple

内存

llm

8 条回复 • 2025-04-25 23:11:26 +08:00

F281M6Dh8DXpD1g2

2024 年 11 月 14 日

haters gonna hate

piero66

2024 年 11 月 14 日 via Android

低预算显存总量优先，算力其次

neteroster

2024 年 11 月 14 日 via Android

认同这篇文章的主要观点，它谈及了一些关于本地 LLM 推理很多人没注意但很重要的内容。

先不谈高 batch （毕竟日常不常用），大多数人都没意识到 M 芯片 prefill 很慢，而这个在上下文长的情况下是挺致命的。而且其实 decode 速度也会受上下文长度影响，很多测试仅仅是在很短的 prompt 下去测生成，得到一个看起来挺好看的数字，然而实际使用中很多情况下根本不是这种场景。

个人观点是，当前，本地 LLM 推理对于大多数普通用户或开发者没有显著的使用必要，除非是特殊需求（例如强隐私需求等）。个人用户花大价钱购买设备单纯只是去推理本地 LLM 在现在看起来是不太明智的，当然如果是其他需求顺便推模型或者单纯太有钱买来玩玩那倒也没什么。即使非要谈本地推理，Mac 的应用场景也是较窄的，文章中写的已经听明白了。

文章还谈到了投机解码，这个确实很有意义，特别是对于生成内容主要是代码的情况，加速应该是相当明显（ cursor 的自动补全就用了），期待未来这方面的发展。

作为补充，看起来文章测 text generation 的时候只是用了 llama.cpp ，他的多卡实现应该还是 pipeline parallel ，有一些后端支持 tensor parallel ，多卡情况下单 batch 性能应该还能进一步提高（但对 PCIe 速度有更高要求），希望有相关测试。

neteroster

2024 年 11 月 14 日 via Android

@neteroster #3 没注意都是用单卡测的，那就不涉及多卡推理的方式了。不过非要本地推理现在性价比高的方案应该还是游戏卡多来几张