V2EX › slowgen 的所有回复 › 第 1 页 / 共 27 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 27

❮

❯

1 天前

回复了 after1990s 创建的主题 › Local LLM › intel b60 48G 可以买吗

这个售价飘了，不如 2 张 AMD 的 7900XTX

2025 年 12 月 21 日

回复了 Mohanson 创建的主题 › 分享创造 › 新书 <Learn me a solana> 写完了, 从码字大师复归常人，评论区留下 solana 地址, 我来发纪念币庆祝一下~

A4YJGZtiFZJywxC3vmK7aJngFJWCotVLbfFQ5TgvaAwx 感谢

2025 年 12 月 3 日

回复了 fingers 创建的主题 › 问与答 › AI 分析视频的底层逻辑是什么，成本有多高？

https://yiyan.baidu.com/blog/zh/posts/ernie-4.5-vl-28b-a3b-thinking/ 自己部署一个玩呗

2025 年 12 月 3 日

回复了 street000 创建的主题 › Node.js › Anthropic 收购 Bun

其实是不太利好 Deno 的一集，Deno 那个 compile 只是把代码无脑合并成一个文件（连压缩都没，注释还保留着）再嵌入 Deno 里，Bun 的 compile 虽然也是合并代码后嵌入到 Bun ，但是还可以 minify + bytecode ，比 Deno 小个几十 MB 。

虽然 Bun 的稳定性一般，但是拿来做客户端工具太爽了，不去和 Deno 、Node 在服务端领域竞争的话没对手

2025 年 12 月 3 日

回复了 cnhongwei 创建的主题 › Local LLM › 各位 AI 大佬，请教一下私有化部署 AI 模型的问题?

去 https://chat.qwen.ai/ 和 https://chat.z.ai/ 选择带 V 型号的模型，把脱敏或者不重要的图片丢进去问，如果能满足需求就可以按照这些模型大小买硬件。

OCR 能力可以体验 https://huggingface.co/spaces/tencent/HunyuanOCR ( https://huggingface.co/tencent/HunyuanOCR ) 和 https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo ( https://huggingface.co/PaddlePaddle/PaddleOCR-VL ) ，不到 1B ，是个电脑都能跑。

5w 以内能买的性价比最高就是 192GB 的官方翻新的 Mac Studio Apple M2 Ultra (24 核 CPU + 60 核的 GPU)那款，跑个 gpt-oss-120B 和 Qwen3-Next-80B-A3B 都很轻松，再跑一个带视觉能力的模型就可以了，2 个模型同时加载也不会爆显存，一起干活挺快的，难度高点就跑 Qwen3-VL-235B-A22B 。192GB 统一内存的好处是未来出了新模型大概率也能跑，不像 4090 48GB,5090 32GB 这种要凑多卡容易爆预算加爆显存。

AMD 的 Max+ 395 这些的瓶颈在于内存带宽，太弱鸡了，能跑但是跑不快，速度只有 M2 Ultra 的 1/3 ，也就跑个 Qwen3-VL-30B-A3B ，如果你体验下来能满足的话，倒也不是不行。

2025 年 11 月 21 日

回复了 wenerme 创建的主题 › 程序员 › LLAMA CPP 比 Ollama 快得多

ollama 就是个废物，在 r/LocalLLaMA 都被喷了好多回了，精准控制参数贼麻烦，还不如直接去 llama-server 看参数 https://github.com/ggml-org/llama.cpp/tree/master/tools/server

而且现在 llama.cpp 自带的 webui 也挺好用的，越来越强大了，缺点就是多个模型加载有点麻烦，要开多个命令。
在 mac 上用 llama.cpp 是最方便的，去 release 页下载编译好的文件就好了，只有 15MB ，追新模型很方便。
举个例子：我跑 gpt-oss-120b 模型，开中等级别推理，这个命令就搞定

/Users/admin/llama/build/bin/llama-server \
-m /Volumes/RC20/lmstudio-community/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf \
--host 0.0.0.0 \
--port 50505 \
-fa on \
-np 4 \
-ub 2048 -b 2048 \
-c 131072 \
--presence-penalty 1.1 \
--n-gpu-layers 99 \
--jinja \
--alias openai/gpt-oss-120b \
--chat-template-kwargs '{"reasoning_effort": "medium"}' \
--temp 1.0 \
--top-p 1.0 \
--top-k 0

Windows 上同理，下载对应的文件解压就用

Linux 上也很方便，N 卡的话直接 cuda13 驱动一装，docker 配置一下 nvidia 作为 runtime 完事

docker run --gpus all \
-v /home/slowgen/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf:/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-p 12345:12345 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
-m /models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-c 40960 \
-np 4 \
--jinja \
--n-gpu-layers 99 \
--temp 0.7 \
--min-p 0.0 \
--top-p 0.8 \
--top-k 20 \
--presence-penalty 1.05 \
--port 12345 \
--host 0.0.0.0 \
--mlock \
-mg 0

2025 年 11 月 20 日

回复了 crocoBaby 创建的主题 › Local LLM › 折腾了一晚上大模型，索然无味

5060 太丐了，全新也掩盖不了丐的事实，你这个就像“新买了一个 500MB 容量的托管虚拟主机然后部署了一个 WordPress ，玩了一下主题和插件之后索然无味”，能怪 WordPress 太弱吗？

2025 年 11 月 3 日

回复了 zungmou 创建的主题 › 互联网 › 虎嗅网被撤销了证书

通配符证书被吊销，那大概率是和测试环境证书共用一个证书，然后被喜欢用 GitHub 做笔记的猪队友把测试环境配置打包下来放笔记里，然后被扫描到了

2025 年 10 月 16 日

回复了 chennqqi 创建的主题 › 程序员 › 作为后端程序员在 cursor 加持下写前端，最适合的前端框架/方案？

管理后台首选 amis ，基本上都是在改 json 文件

2025 年 10 月 14 日

回复了 lileyzhao 创建的主题 › 程序员 › 奔 4 的.NET 老兵，想深入 AI 大模型方向，但很迷茫

卖课流永不过时

2025 年 10 月 14 日

回复了 xkwdm 创建的主题 › Node.js › 删除 node_modules 文件夹非常耗时

可以用华硕的 RAMDisk https://dlcdnets.asus.com/pub/ASUS/mb/14Utilities/ASUS_RAMDisk_V2.03.00_for_Windows_10_64-bit.zip (有 Referer 校验，需要地址栏输入打开)
把内存分出来当硬盘，结合 WSL1 在里面使用 rm -rf 删除，超快

2025 年 10 月 12 日

回复了 YanSeven 创建的主题 › 浏览器 › Zen 浏览器疑似内存占用有点高啊

应该是 Firefox 的锅，我最近用 Firefox 开发者版内存泄露了，开游戏经常被杀一开始还以为是游戏的问题，后面检查了内存占用才惊觉是有一个没关 Firefox 吃了六十多 G 内存，Firefox 里的页面也很正常就几个 Github 的项目

2025 年 10 月 6 日

回复了 guin 创建的主题 › 程序员 › 感觉前端自学后端是不是还是从 Java 开始学比较好？

跟着这个 roadmap 走就行了 https://roadmap.sh/backend?r=backend-beginner ，最多加个消息队列 RabbitMQ 和搜索引擎 Elasticsearch ，非要去 java 屎里淘金干啥…首选 node 和 go ，选对已经成功一半了。

目标是“软件工程师”而不是“x 语言程序员”，先掌握更多的后端架构知识才是正确的道路。
很多时候做技术方案不是越多越好，一股脑做加法的都是菜得抠脚的人，你看 java 那些课程觉得人家内容多，我看过去还觉得是一开始方向错了只能引入更多的蹩脚方案来弥补，疯狂堆屎山。做减法才有技术含量。

我搜了下你那些充电桩、AI 、网约车课程，给你理一理里面内容：

充电桩：
SpringBoot3：正常的 web 框架，没啥特别的；
MQTT：RabbitMQ 加插件；
WebSocket：node 、go 更擅长，甚至 deno 和 bun 在标准库里都实现好了；
Netty：就是 JavaScript 在 async/await 之前的回调地狱的时代那套东西；
时序数据库：PostgreSQL 装个 TimescaleDB 插件搞定；
Protobuf：好坏参半的 RPC ，复杂度增加很多，真要用你还得考虑很多东西，不如纯 http 调用接口，最多加个 Dapr 在中间；

AI 课：
LangChain4j：一个库，你用 LlamaIndex.TS 就得了；
RAG：LlamaIndex 里就有，3 行代码的事 https://developers.llamaindex.ai/typescript/framework/modules/rag/chat_engine/ ，原理在 https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21 这 15 行代码，说白了就是拆分问题里可以搜的东西，搜出来相关内容再 rerank ，然后拼接成字符串贴在上下文里，又回到了 Elasticsearch 或者 PostgreSQL 的 pgvector ，其实难点在召回高质量内容，和 java 没啥关系；
记忆： https://developers.llamaindex.ai/typescript/framework/modules/data/memory/#configuring-memory-for-an-agent 有效代码不到 20 行…还是字符串拼接；
tools + MCP： https://developers.llamaindex.ai/typescript/framework/modules/agents/tool/#tool-function 有效代码加起来不到 50 行…

AI 课：和 java 有点关系但不多，算是一个 API Caller 加点项目设计吧，这也能水 13 小时课程，看得我也想去卖课了……

网约车课：
SpringCloud 微服务体系：有 k8s 之后没它什么事，也就 java 存量项目在用，真正要学的是 k8s 这套体系，结合你的代码正确的跑在 k8s 上面。

要是会打一个极简的 docker 镜像然后自己在云厂商的容器服务/serverless 里跑起来再配置一个网关入口你已经超越 98%的同行了。要是在云厂商通过界面操作点点点配置好弹性伸缩你已经超越 99%同行了。此时一部分 java 还在解决容器太大启动太慢和内存占用太高的问题，一部分 java 在看某屎山动态线程池方案想办法给自己的服务从 50 并发优化到 100 并发，而你在喷云厂商为啥我 1 核 512MB 内存的容器明明能抗三五千并发，你的共享型 API 网关并发额度才给到我 500 。

要是框架选了 honojs 然后部署到 cloudflare worker 你就已经超越 99.5%的同行了，你的应用现在已经打不死了，能打死你的是下游扛不住的各种组件和你的账单。

AI 写代码正确性最高的语言：
Go （语法简陋、特性少、概念少、标准库质量高，已经被 AI 学透了，从 30B 到 1000B 级别的 AI 写出来都差不多，反正遇事不决可以让 AI 当场搓一个库给你）
JavaScript/TypeScript(高质量代码库多，毕竟前端娱乐圈一言不合开个 NPM 仓库，9 行代码的 is-odd 都要搞一个包，还写一堆测试代码和 lint ，产能超强，喜欢追新，AI 容易学到新内容);
Python （高质量代码库多，但是异步生态垃垮所以高质量异步代码少，AI 写同步代码还行，写异步代码能力差）

你在 groq 里创建个免费 api key ，选个 gpt-oss-120b （速度接近 500token/s ）或者 kimi-k2-instruct-0905(速度 220token/s)，用来写这 3 个语言正确率都能有 95%甚至更高，你看都来不及，何苦去用 java 呢，限制你的只有你的后端体系知识，因为每个 AI 给的方案可能都不一样，你需要判断这“上中下策”里哪一个才是“上策”，所以按照最开始的 roadmap 打好基础才是正道。

2025 年 9 月 19 日

回复了 wh469012917 创建的主题 › 程序员 › Swoole 下的 Hyeprf 框架，现在的维护计划怎么样？

现在只是为当时的选择还债而已，5 年前就应该迁移到 go 了，再不济迁移到 nodejs 也好过继续 php 。
你现在迁移到 go 有个好处就是 AI 写 go 的能力几乎是溢出的，比其它语言准确性高很多，在 AI 加持下迁移应该很快

2025 年 9 月 19 日

回复了 PilgrimSun 创建的主题 › Solana › 关于我买和卖 v 币的说明

哈哈，来点代币，打赏有价值的帖子还挺有意思

2025 年 9 月 16 日

回复了 wenkgin 创建的主题 › Local LLM › AI 本地化部署的方式

@mewking 也不能说写伪代码，正常提需求是可以的，举个例子
https://chat.qwen.ai/s/e80b06a7-f08b-4c10-b556-ab71b158a0b1?fev=0.0.208 30B 参数写的

https://chat.qwen.ai/s/1a84cca6-4818-43fc-a131-24b48bbc7d41?fev=0.0.208 80B 参数写的

https://yuanbao.tencent.com/bot/app/share/chat/Ua8dLAdHJBHj 671B 参数写的，还开了推理

几乎没差别，但是你把问题换成其它编程语言看看？
https://chat.qwen.ai/s/0d258b03-a808-415b-8523-a76b33ba27a9?fev=0.0.208

这里一下用 3 个模型同时回答，只有 480B 的 Qwen-Coder 意识到高性能要用 asyncio ，写出来的代码能跑，但是也有 2 个语法问题：finally 代码块里的变量作用域不对。

2025 年 9 月 16 日

回复了 wenkgin 创建的主题 › Local LLM › AI 本地化部署的方式

@mewking 如果跑 Qwen3-Next-80B-A3B 的 int8 ，单 96G DDR5 6400 确实够了，但是这个系列分推理和非推理模型，我日常是 2 个模型都会常驻的，如果你也像我一样操作那 96G 内存就不太够。

但是如果你仔细观察 Qwen3-Next-80B-A3B-Thinking 的跑分，会发现它比 Qwen3-30B-A3B-2507-Thinking 提升也不到 10%……估计你手头现有硬件都能跑了。

这些跑分提升不到 10%是什么概念？我最近用这些模型来测编程能力，发现了一个很有趣的现象，理论上大模型现在写 python 、javascript 能力最好，但是 golang 因为关键字就 25 个，特性也少足够简陋，所以 Qwen3 这 30B 级别的模型写出来的 golang 代码居然和更大更顶级的模型差距非常小，准确度超级高

2025 年 9 月 16 日

回复了 wenkgin 创建的主题 › Local LLM › AI 本地化部署的方式

@mewking 22B 的 Q8 量化加上 KV Cache ，32G 显存还真不一定放得下，你可以用这个 https://smcleod.net/vram-estimator/ 算一下。带宽的话叠加不了，一般是计算分层，Q4 量化推理速度都不一定能到 30 ，我肉眼看 https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/flashmoe_quickstart.md 这里的 gif 估摸着单卡速度也就 12token/s 的样子，这个配置还是跑新出的 Qwen3-Next-80B-A3B 系列实在，和 235B 的百分比差距很小了

2025 年 9 月 16 日

回复了 Ketteiron 创建的主题 › TypeScript › TypeScript5.9，仿佛走出草原来到了现代社会

没切 deno 前确实有 zod 类型推导延迟这个问题，webstorm 更加严重根本反应不过来类型已经变更了……

1 2 3 4 5 6 7 8 9 10 ... 27

❮

❯