V2EX › clvin 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

2024 年 8 月 12 日

回复了 ddvswgg 创建的主题 › Local LLM › 关于在本地部署开源模型的一些问题请教

1. 40G 可以跑 7B 的模型。
2. ollama 是比较方便的部署方式，如果想并发性能更好一些，可以使用 vllm 来推理。
3. 熟练的话就很快，不熟的话照着文档来部署。
4. ollama 和 vllm 都支持兼容 openai API 接口，就是 http 调用。
5. 上 RAG 可以使用集成好的框架，比如 dify 之类的。
6. 上 RAG 的话，还需要 EMBEDDING 和 RERANK 的模型，具体可以看 dify 的文档。

2024 年 6 月 24 日

回复了 TriiHsia 创建的主题 › 分享创造 › 🌼 BalmyTime 一款跨平台的休息提醒 & 屏幕时间工具，欢迎体验

求一个码，谢谢~ aGNsdmluQGdtYWlsLmNvbQ==