AI（大模型）本地化项目和部署设备

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 729 天前的主题，其中的信息可能已经有所发展或是发生改变。

请问一下各位都是怎么"AI(大模型)本地化"的？

有没有一些推荐的项目？例如 hugging face ，localai 。

另外大家的本地模型都是跑在什么设备上？直接 Linux 服务器 + Nvidia 显卡吗？

手头的设备是 MacBook Pro M3, 尝试跑一些编译的时候经常因为 arm64 架构出错。

模型

本地化

设备

hugging

6 条回复 • 2024-01-11 16:43:03 +08:00

slowgen

2024-01-11 07:32:38 +08:00

客户端
https://lmstudio.ai/ 界面布局合理，功能也 ok 。
https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富，适合丢公网加个密码访问。
都支持上下文不足被截断时那个 continue 继续续写，都支持多种显卡加速，都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

模型
https://huggingface.co/TheBloke 下载量化后的 GGUF 格式，一般看自己内存多大下载对应的规格，Q8 是损耗最小的但是最占资源速度也最慢，Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

设备
m2 ultra 76-core 192gb 官翻版

推荐模型
https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版，我拿来写代码还可以，Q4_K_M 规格量化速度 23token/s
https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B：混合专家模型，速度很快准确率也 ok ，Q4_K_M 规格量化速度 50token/s ，Q5_K_M 是 37token/s
https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物，中文能力不错，有黄文的模型是基于它做的微调，而且有 200k 的上下文，Q8 规格开启 20w 字上下文，内存不放模型占用 48GB ，内存也放模型占用 83GB ，真微服务的话整个服务丢进去问问题也可以
https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人，很小很强悍，中文能力也不错，能写黄文能写代码。

其它推荐
https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多，讨论热度高。
https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存，让更小显存的设备跑大模型有更快的速度，todo 里有多 GPU 和 M 系列芯片的计划，值得期待，我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的，可以用苹果的 mlx 框架来驱动模型，按说明先转换格式就可以跑起来了，我现在也期待其它客户端把它也整合进去。

shawndev

2024-01-11 10:01:12 +08:00

能用 cuda 还是用 cuda ，以下转自自己的推特：

换 M2 Max 的 Mac Studio 后和 13700K+4090 做了下机器学习的对比。在 BERT 文本分类场景，13700K 1it/s ，4090 30it/s ，M2 Max 6it/s 。均使用 huggingface 的 Pytorch 实现，其中 M2 Max 使用 mps 后端（但未验证是否所有 operator 都支持 mps ）。