V2EX › slowgen 的所有回复 › 第 3 页 / 共 27 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 27

❮

❯

129 天前

回复了 Lucy2025 创建的主题 › Local LLM › 请问: 要部署本地 AI, 投喂 AI 知识库的话, 目前适合个人电脑的最佳方法是啥?

最佳性价比就是蹲苹果官方翻新的 Mac Studio Apple M3 Ultra 芯片 512GB + 1TB 版本，价格 6.3w ，24 期免息每个月 2.6k ，然后跑 Qwen3-Coder-480B-A35B-Instruct ，5bit 量化速度 19token/s 左右，一天可以输出 150w 左右的 token ，约等于调用价值 400RMB 的官方 API 。

132 天前

回复了 GaryLee 创建的主题 › 程序员 › 目前最好用的 AI 补全插件是哪个？

等预计今天发布的 Qwen3 Coder 30B-A3B 结合 https://www.continue.dev/ 本地部署

140 天前

回复了 yuyue001 创建的主题 › 程序员 › 阿里发布代码模型 Qwen3-Coder

根据 Qwen 系列的一贯表现，大杯模型和超大杯模型的差距很小，等个 Qwen3-Coder 其它尺寸的模型本地部署玩玩。

目前这个尺寸的模型跑 4bit 动态量化也要 270GB 的 vram ，前几天 M3 Ultra 512GB + 1T 的官方翻新突然有货，只要 6.3w ，免息分 24 期一个月只要 2600+，还能找点员工渠道折扣更便宜，拿来本地部署一个接近 Sonnet 4 的编码模型往死里用其实挺划算

168 天前

回复了 awsl2333 创建的主题 › 程序员 › cloudflare containers 来了, 真不错

@liuhai233 以 basic 这档 1GiB 内存、1/4 CPU 和 4GB 磁盘规格的 instance 为例子，如果是长期运行的话

一个月 = 30 天 x 24 小时 x 每小时 3600 秒 = 2592000 秒
内存的免费额度：25 GiB-小时 = 25 × 3600=90000 秒
超出的部分就是(2592000 - 90000) * 1GiB 内存 * $0.0000025 = $6.255

同理，CPU 额度超出部分就是（ 2592000 秒 - 375 分钟 * 60 秒）* 1/4 vCPU * $0.000020 = $12.8475

磁盘额度超出部分就是（ 2592000 秒 - 200 小时 * 3600 秒）* 4GB 磁盘 * $0.00000007 = $0.52416

一个月接近$20 ，从目前文档看，容器的 IO 等待时间也是计算在内的，而 worker 的 IO 等待是不计费的，这个可以说是最显著的区别了，所以想用的话得识别好业务的实际形态

169 天前

回复了 awsl2333 创建的主题 › 程序员 › cloudflare containers 来了, 真不错

从定价上来说其实很贵，如果长时间运行的话比同配置包月的 vps 和云服务器贵上非常多（当然流量还是比各种云服务便宜很多，云厂商普遍 0.8 元/GB 的国际流量，它在付费计划里有 1TB 的默认额度）。这种 serverless 赌的就是你会不会长期运行。

169 天前

回复了 wefgonujnopu 创建的主题 › JavaScript › js 不使用 promise 完成一个 sleep 函数，必须支持 await 调用

没啥意义，qwen3-30B-A3B 的 4bit 量化在 M2 Ultra 上以 85 token/s 的速度秒了这一题，显存占用 18GB 左右。
prompt：从架构师角度分析这个问题"js 不使用 promise 完成一个 sleep 函数，必须支持 await 调用，还要能在浏览器使用"，本地不跑大模型可以去官网 https://chat.qwen.ai/ 问

当你掌握很多门语言之后，就知道那些屎一样的临时过渡方案就知道压根没必要看，JavaScript 的 async/await 都是抄 2012 年 C#发布的 5.0 语法，而且还没一次性抄对，中间搞那个 yield 恶心方案和过渡的 promise 方案，当时很流行的库有 co/bluebird/async 不知道有多少人记得。到了 2017 年 6 月 async/await 才正式并入规范，而 2017 年 5 月 Node.js 8.0 都正式支持 async/await 了，之前 6.x 都能通过参数开实验性支持了。

我从 8.0 开始用 Node.js ，当时直接上 TypeScript 写后端，根本懒得吃那些设计缺陷造的屎，原型链和这种 then 地狱风格的代码压根没写过一行，项目规范都禁止写这种代码。

至于你补充那个 python 例子，和异步也没啥关系，就一个默认递归深度，在带 GC 的语言中敢写递归之前不看限制或者有没有尾递归优化吗？

177 天前

回复了 orrinex 创建的主题 › 程序员 › VS Code 和 JetBrains 系列混用的时候，大家快捷键用哪套为主？

早期 sublime text 用多了，现在都是统一 sublime text 风格

193 天前

回复了 beyondstars 创建的主题 › 云计算 › mac mini (2024) 作为家里云虚拟化平台的可行性

@also1412 OrbStack 不能用来长期做服务，因为它要定时联网检测来判断你的用途，我之前就碰到了代理配置错误但是因为平时丢角落里跑 LLM 所以也没发现，偶尔 vnc 连上去管理，某一次才发现 OrbStack 弹了个提示说联网失败，然后说我的用途有问题，所以自己退出了

208 天前

回复了 miaoxiaomayi 创建的主题 › macOS › 请教 Mac studio 部署 ai，用 ollama 还是 lm studio

用 LM Studio ，配合 MLX 和 DWQ 量化（最新的一个量化方法，质量很好）很不错，开 KV Cache 也方便，我拿 M2 Ultra 跑 Qwen3-30B-A3B-DWQ 的 4bit 版可以到 105token/s ，Qwen3-235B-A22B-DWQ 的 4bit 版本也能到 32token/s

210 天前

回复了 cj323 创建的主题 › Node.js › 吐槽一下 bun

bun 确实不稳定，有一些号称兼容了 node 的 api 其实还没兼容，加密库和文件流这块目前还有问题，我测试 exceljs 经常生成不了文件，http 库也有一个和 deno 一样的问题就是不支持 connect 事件，不知道是不是本身单元测试就有问题。

内存占用也有问题，同样的代码在 windows 下占用一百多 MB 内存，去到 linux 只占用 7MB…倒是 bun 内置那些函数库非常实用。其实碰到兼容性的问题如果能拆成独立小 api 用 node 或者 deno 去部署的话倒也还能接受，我就拆了 2 个这样的 api 。

deno 就很稳，拿来替代 node 一点问题都没有。

node 从 15 到现在的 24 都没啥吸引人的新特性，绝大部分都是缝缝补补，被 deno 和 bun 追上那是一点都不冤枉。

216 天前

回复了 pingdog 创建的主题 › 云计算 › 腾讯云轻量 200M 上线几个月了，体验怎样？实际限速严重吗？打算买个来放文件分发

hk 节点拖了几个 T 的对象存储数据回来，没感到限速

220 天前

回复了 ysicing 创建的主题 › 美酒与美食 › 最近再喝冷泡茶，有没有好的推荐?

绿茶系都可以，我一般是用狮峰的龙井或者茉莉，比例是 8 克茶叶一升水，如果泡 2 天以上可以减少 1 到 2 克茶叶，只要容器干净可以在冰箱放 2 周。

269 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

@mewking pcie 通道速度不会降低多少性能，现阶段 ExoLabs 的方案是靠网络通信都能玩，推理模型交换数据挺少的，刚好新鲜出炉一个部署案例 https://www.bilibili.com/video/BV1FvQrYQEPc

274 天前

回复了 FriedRiceNoodles 创建的主题 › 程序员 › 掘金感觉也沦陷了，现在还有什么相对纯粹的技术社区吗？

掘金成为掘屎好多年了吧，我现在一般看 reddit 为主
https://www.reddit.com/r/webdev/
https://www.reddit.com/r/programming/
https://www.reddit.com/r/devops/
https://www.reddit.com/r/LocalLLaMA/

278 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

@mkdirmushroom
@jqknono
我的 Mac Studio 就是 192GB 的 M2 Ultra ，对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致，最多是随着上下文越大速度不断衰减

278 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

@dongfanga 但是两者的激活参数差不多，速度上差距不大，得具体实测所有题目才好说，我只测了代码能力。而且 qwq-32b 跑起来条件太简单了，搞两张 16-24g 显存的卡，2 张 a770 都可以没什么压力

278 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

@dongfanga 可行啊，我玩了一天了，6bit 量化下回答质量和 grok3 差不多

280 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s （开启 KV Cache ），而 deepseek v3 和 r1 的激活参数量都是 37B ，总参数量 671B ，在 512GB 内存上跑 4bit 量化为主，大体上也是 40~45token/s 左右（对比 M2 Ultra 算力和带宽的提升和激活参数变化所得）。
对比 deepseek 现在的官网价格，v3 每百万 token 输出为 8 元，r1 是 16 元，用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本，跑 r1 回本速度快一倍，只需 1193 天。

282 天前

回复了 momowei 创建的主题 › 计算机 › 帮忙看看这个 diy 装机配置搞开发怎样

@ifwww 我装过 3 个开发机了，一开始都是想着扩展性，到最后最多也就插个显卡插个机械盘。不如小型化，平时也方便带去公司做个团队测试环境，淘汰了还方便寄给家人。

1 2 3 4 5 6 7 8 9 10 ... 27

❮

❯