请问一下各位都是怎么"AI(大模型)本地化"的?
有没有一些推荐的项目?例如 hugging face ,localai 。
另外大家的本地模型都是跑在什么设备上?直接 Linux 服务器 + Nvidia 显卡吗?
手头的设备是 MacBook Pro M3, 尝试跑一些编译的时候经常因为 arm64 架构出错。
1
shuimugan 318 天前 17
客户端
https://lmstudio.ai/ 界面布局合理,功能也 ok 。 https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富,适合丢公网加个密码访问。 都支持上下文不足被截断时那个 continue 继续续写,都支持多种显卡加速,都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。 模型 https://huggingface.co/TheBloke 下载量化后的 GGUF 格式,一般看自己内存多大下载对应的规格,Q8 是损耗最小的但是最占资源速度也最慢,Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩 设备 m2 ultra 76-core 192gb 官翻版 推荐模型 https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版,我拿来写代码还可以,Q4_K_M 规格量化速度 23token/s https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B:混合专家模型,速度很快准确率也 ok ,Q4_K_M 规格量化速度 50token/s ,Q5_K_M 是 37token/s https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物,中文能力不错,有黄文的模型是基于它做的微调,而且有 200k 的上下文,Q8 规格 开启 20w 字上下文,内存不放模型占用 48GB ,内存也放模型占用 83GB ,真微服务的话整个服务丢进去问问题也可以 https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人,很小很强悍,中文能力也不错,能写黄文能写代码。 其它推荐 https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多,讨论热度高。 https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存,让更小显存的设备跑大模型有更快的速度,todo 里有多 GPU 和 M 系列芯片的计划,值得期待,我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。 https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的,可以用苹果的 mlx 框架来驱动模型,按说明先转换格式就可以跑起来了,我现在也期待其它客户端把它也整合进去。 |
2
shawndev 318 天前
能用 cuda 还是用 cuda ,以下转自自己的推特:
换 M2 Max 的 Mac Studio 后和 13700K+4090 做了下机器学习的对比。在 BERT 文本分类场景,13700K 1it/s ,4090 30it/s ,M2 Max 6it/s 。均使用 huggingface 的 Pytorch 实现,其中 M2 Max 使用 mps 后端(但未验证是否所有 operator 都支持 mps )。 |
3
MonTubasa 318 天前 2
曾经我也很苦恼这个问题,大部分时间用的云服务器。直到有一天我老婆送了我一张 4090
|
4
Alias4ck 318 天前 2
|
5
Lockroach 318 天前
llama.cpp ,直接配合其他文件运行大模型
|