1
winson030 1 天前 via iPhone
64 的可以搞搞。我这 8gb 的 air 还是 api 吧。
|
2
qdwang 1 天前 16
私人本地跑大模型,没什么实际意义的。
1 你只能跑小一些的模型,联网的同公司模型只要比你大,总归性能比你好。 2 费内存。你模型不载入内存,每次都要冷启动,你模型载入内存,永远占去一大块。 3 费电,如果是不插电的笔记本,很快电费完了。 4 速度慢 除非你 1. 非常注重隐私 2. 工作环境没网 3. 大量本地 rag 需求 |
3
dilidilid 1 天前
没啥用,玩两次绝大部分人还是会去用线上大模型
|
4
chiaf 1 天前 via iPhone
64G 还是太小了。
跑 sd 的模型还是挺耗内存的。 |
5
allpass2023 1 天前
比较好奇,只是耗内存/显存吗? 运行的时候 CPU 和 GPU 占用是怎么样的?
|
7
234ygg 1 天前
我用 ubuntu server 上的 4090 跑 32b ,显存占用 21864/24564MiB ,GPU 推理功耗 350w 电感唧唧叫,完成推理后不释放显存的话功耗大概 15w ,吐第一个字的等待时间较久,后续我肉眼感觉大概是三五十 token/s ,反正比我阅读速度快多了。
纯中文对话的限定条件下,32b 的水平大概比 openai 官方目前实装的 3.5 turbo API 差不多,远不如网页订阅版的 4o 和 openai 官方的 4o api (请注意不是第三方假 4o api )。 整体上我评价为可以作为非常靠谱的中文翻译模型使用了,比之前的外国宝宝们强在能稳定输出中文,其他没看到任何进步。 |
8
ZeroClover 1 天前
用 Apple Silicon 跑 LLM 的都建议阅读:
https://blog.hjc.im/apple-uma-for-llms-problems.html 基本就属于能跑个玩,但是 Token 生成速度不具备实用价值 如果专门买 Mac 跑 LLM ,那只能说。。。 特别是 DeepSeek 的 API 便宜得就像不要钱 |
9
arischow 1 天前 via iPhone 1
模型换成社区做的 R1 distilled
|
10
hefish 1 天前
我去,我也要我也要,。。。。。我也要搞 64G 的 mac 。。。
|
11
yukino 1 天前 via Android
@ZeroClover API 能给我写小黄文吗🤪
|
12
bybyte 1 天前
如果不是对隐私性要求特别强,官网的满血模型更好
|
13
ShadowPower 1 天前 1
@hefish 有 64G 内存的 Mac 玩玩还可以,为了跑 LLM 买 64G 内存的 Mac 就不值得了……
|
14
hefish 1 天前
@ShadowPower 没事,老板出钱
|
17
Donaldo 1 天前
速度太慢了,只能是体验一下。真要想提供“服务”,不如买 4 张 22g 的 2080ti 。。
|
18
dji38838c 1 天前
何必呢,要隐私的话,自己云上部署一个 GPU 的不是更好。
|
19
haiku 1 天前 via Android
有海外老哥尝试部署原版不蒸馏 r1 ,$ 6000 跑几个 token/s
|
20
Nasei 1 天前
我用 m3pro 试过 14b 的模型,我不知道它的生成速度,但我直观感觉就是本地就图一乐,实际就不可用
|
21
levn 1 天前
70b 的大小是 32b 的两倍,那么速度应该在 7t/s 左右,为什么下降那么多呢。
|
22
ZeroClover 1 天前
@yukino 自己没试过就不要抖机灵
OpenAI 官方 API / AWS Bedrock / OpenRouter 这三家黄文和 politics 都没什么问题,除了一些非常过激的模型本身拒绝回答,其他都毫无问题。 模型训练引入的道德观念得靠 Post Training 解决,这更不是 Apple Silicon 能做到的事情 |
23
ZeroClover 1 天前
@levn 因为带宽不够了
|
24
LnTrx 1 天前 2
@qdwang 还有一点是价格。用 API 容易不小心造成大额开支,但自部署可以利用原本闲置的设备,电费、折旧成本相对可控。蒸馏模型虽然知识不行,但目前推理、翻译等已经有一定能力了,可以搞一些很费 token 的活。
|
25
youthfire 1 天前 via iPhone
我是 m3 96gb ,实际跑 deepseek r1:32b 还是觉得太慢了,别说 70b 了
|
26
buruoyanyang 1 天前
公司好像有个 a6000 在吃灰,来年了我也去跑个本地的试试
|
27
GabrielleBellamy 1 天前 1
我是 M4 Max 128GB 内存,跑 DeepSeek 32b 非常流畅。
|
28
qiaobeier 1 天前
@yukino 现在所有 AI 都只能写些低年级小学生作文,我女儿四年级就没法用了,1 ~ 2 年级我经常用 GPT 写范文再让她改改,三年级就被老师发现用了 AI😂
|
29
davidqw 1 天前
32b 的蒸馏日常可用,但不如 671b 本体
|
30
fcten 1 天前
这居然是意外好处吗,我以为买大内存 mac 设备的都是为了本地跑 LLM 的。毕竟 mac 的金子内存一般人没需求是不会拉满的...
除了跑 LLM 还有哪些需求会用到大内存?视频剪辑? |
31
youthfire 1 天前
@GabrielleBellamy 差别那么大?我是 m3 max 96gb 。跑 32b ,按道理显存也足够,甚至还富裕,但是我觉得回答很慢。用的 Open webui ,还经常 network problem ,不过答案仍然会出来。
|
32
youthfire 1 天前
我发现直接用 ollama 速度很快,用 open webui 调用 ollama 却回答非常慢
|
33
privater OP @fcten 21 年的时候,哪有什么 AI 模型的概念啊,都是研究员的玩物,大内存是应对全栈开发的,直到 2022 年底 chatgpt 爆火后才慢慢进入视线,实际能轻松跑,还有后面的 pytorch 等库对 M1 系列支持开始。
这台电脑现在 1 分钟就能解决完所有安装和库的兼容性,下载完模型就能用,这种易用性跟装个浏览器差不多了,21 年想都没法想,我其实感概的是这点 |
34
PandaIsGood 20 小时 12 分钟前
@fcten IDE 吃内存还是挺厉害的,加上常年开一堆浏览器 tab
|
35
feikaras 13 小时 56 分钟前
懂电脑的越来越少了。可惜。
就 mac 那个速度,你给他 192g 都不顶用啊。 |
36
xiaoqi6pi112 12 小时 19 分钟前
@ZeroClover 我之前看有人用 mac mini 做了一个集群
|
38
yunpeng2015 6 小时 44 分钟前
m3 max 36G ,跑 r1 14b 很流畅,32b 可以运行但输出比较慢
|
39
Vitta 4 小时 39 分钟前
64g 的 intel 人都麻了
|
40
ZeroClover 2 小时 33 分钟前
@xiaoqi6pi112 自媒体哗众取宠搞的,不具备任何生产价值和成本优势。同样的成本拿传统显卡方案搞更便宜更通用更可靠
如果捡垃圾那就更便宜了 https://blog.hjc.im/dual-w7900ds-llm-preliminary-experience.html |
41
hedwi 2 小时 32 分钟前
deepseek 100 万 token 1 块钱 你闲的吧
|