离网 Centos 服务器部署 Qwen-2.5-Coder

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 406 天前的主题，其中的信息可能已经有所发展或是发生改变。

请教一下各位大佬，我想在一台隔离外网的服务器上搭建千问代码这个模型，我现在在服务器上安装了 Ollama ，然后去魔塔那边通过 git clone 下载了通义千问 2.5-代码-14B-Instruct-GGUF 模型文件，发现这个模型文件压缩称 tar 后有 150G ，服务器那边大概只有 200G 空间，估计是不能放进去并解压了。

不知是否有比较小的模型文件资源可以在 win 下载后，上传到服务器中通过 Ollama 启动使用？

我在 win 环境下通过 Ollama 下载的通义千问 2.5-代码-14B 只有 9G 的大小，在魔塔社区下载的确有 150 个 G ，这个是因为 Ollama 那边处理导致的吗？

离网

模型

空间

6 条回复 • 2024-12-10 14:22:29 +08:00

MAzrael

2024 年 12 月 10 日

是不是下载了所有的量化版本？只需要下载你需要的版本就行，如 qwen2.5-coder-14b-instruct-q4_k_m.gguf 就只有 8.99G

leoSup

2024 年 12 月 10 日

@MAzrael #1 感谢，我确实是下载所有的量化版本，最近才开始接触部署 AI 大模型，对这些不太熟悉

Actrace

2024 年 12 月 10 日

最方便的办法是 Docker ，先在镜像里部署完成，然后打包镜像，拉到 CentOS 里。

vickhan

2024 年 12 月 10 日

下载好很多中间文件和 checkpoint 吧？那些直接删除就好了。14B 的模型没那么大

leoSup

2024 年 12 月 10 日

@vickhan #4 应该是 1 楼说的那种情况，直接 git clone 下载了所有量化版本，但只需要按需选择一个就行，不同的版本会有点差异，比如占用内存，生成速度，偏向等等

dcdlove

2024 年 12 月 10 日

Ollama 装载模型，然后 one api 将接口转换成 openapi 的方式，然后就各种自由搭配调用了