V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  lithiumii  ›  全部回复第 2 页 / 共 90 页
回复总数  1796
1  2  3  4  5  6  7  8  9  10 ... 90  
应该是唯一一个消费者可以买来当游戏显卡用的国产显卡,然后就喜提美国实体名单认证成为被封杀厂商了。
训练或者推理方面不知道,但是他们 github 上面有不少 demo ,应该还是比较上心想做生态的。
很牛,希望甲方和老板们多读一读,知道 AI 画图不是动动嘴就能完成的
177 天前
回复了 PalWorld 创建的主题 Local LLM 多卡部署 QWQ Q8 是否可行
可行,不过建议 48G 的 4090 或者 4090D 一步到位
202 天前
回复了 Fdyo 创建的主题 Windows Windows 11 即将推出新的命令行编辑器 Edit
你还真别说,有时候 ssh 到 win 里面想改个配置文件,都不知道该用啥
217 天前
回复了 MianyinCat 创建的主题 问与答 名人写真原图的下载方法
闲鱼
千兆旁路由我是树莓派 4b ,感觉绰绰有余
理论上最低限度的跑起来:显存 + 内存 + 硬盘 > 模型 + context
但是比较傻瓜的软件(比如 ollama )一般不能直接把硬盘当缓存用,所以比较傻瓜的一键跑起来:显存 + 内存 > 模型 + context
人的阅读速度大概是 5 token 每秒,所以跑起来并且速度勉强能用:每秒 token 数 > 5
因为速度主要瓶颈是内存或显存的带宽,普通家用双通道 < 服务器 4 通道 < 中低端显卡、苹果统一内存 < 高端显卡,所以模型放到显卡的比例越大,速度越快。另外就是做推理的时候模型不同的层可以放进不同的显卡,不走 nvlink 仍然速度很快,因为不同的层之间通信要求没有那么高,所以多个 PCIe 槽直接插多显卡就可以放下更大的模型并且获得更快的速度。
最后是计算模型体积,一般的完整模型 fp16 每 B 近似 2G ,量化到 q4 的模型近似 0.5G 每 B ,但是这样算太粗糙了可以再加个 20% 当余量。context 计算很麻烦,不同参数的模型需要的不一样,而且可以自己调高调低,ollama 默认给得非常低只有 2k (很多模型支持到 128k ),所以再加个 10% 当余量。
那就是 显存 + 内存 > 1.3 × 模型体积。
267 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
petals 比你们早吧,而且是小显存的卡分布式部署大于单卡显存的模型。可惜免费节点已经没人跑了。
301 天前
回复了 abcfreedom 创建的主题 生活 求分享砍价技巧
跟父母学了点,就很简单,一直问能不能再便宜点
是的,有一阵子不稳定,就改自建 planet 了,ztncui
316 天前
回复了 readman 创建的主题 NAS 突然想不通了,做备份的意义是什么?
小姐姐:没 raid ,直接分盘存,炸了拉倒
收藏的影视作品:raid1 ,万一炸了一个盘还有一个,万一都炸了就认倒霉
重要数据:在各种地方都复制了一份
1  2  3  4  5  6  7  8  9  10 ... 90  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4254 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 86ms · UTC 01:01 · PVG 09:01 · LAX 17:01 · JFK 20:01
♥ Do have faith in what you're doing.