V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  slowgen  ›  全部回复第 1 页 / 共 27 页
回复总数  539
1  2  3  4  5  6  7  8  9  10 ... 27  
1 天前
回复了 after1990s 创建的主题 Local LLM intel b60 48G 可以买吗
这个售价飘了,不如 2 张 AMD 的 7900XTX
A4YJGZtiFZJywxC3vmK7aJngFJWCotVLbfFQ5TgvaAwx 感谢
2025 年 12 月 3 日
回复了 fingers 创建的主题 问与答 AI 分析视频的底层逻辑是什么,成本有多高?
2025 年 12 月 3 日
回复了 street000 创建的主题 Node.js Anthropic 收购 Bun
其实是不太利好 Deno 的一集,Deno 那个 compile 只是把代码无脑合并成一个文件(连压缩都没,注释还保留着)再嵌入 Deno 里,Bun 的 compile 虽然也是合并代码后嵌入到 Bun ,但是还可以 minify + bytecode ,比 Deno 小个几十 MB 。

虽然 Bun 的稳定性一般,但是拿来做客户端工具太爽了,不去和 Deno 、Node 在服务端领域竞争的话没对手
2025 年 12 月 3 日
回复了 cnhongwei 创建的主题 Local LLM 各位 AI 大佬,请教一下私有化部署 AI 模型的问题?
https://chat.qwen.ai/https://chat.z.ai/ 选择带 V 型号的模型,把脱敏或者不重要的图片丢进去问,如果能满足需求就可以按照这些模型大小买硬件。

OCR 能力可以体验 https://huggingface.co/spaces/tencent/HunyuanOCR ( https://huggingface.co/tencent/HunyuanOCR ) 和 https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo ( https://huggingface.co/PaddlePaddle/PaddleOCR-VL ) ,不到 1B ,是个电脑都能跑。

5w 以内能买的性价比最高就是 192GB 的官方翻新的 Mac Studio Apple M2 Ultra (24 核 CPU + 60 核的 GPU)那款,跑个 gpt-oss-120B 和 Qwen3-Next-80B-A3B 都很轻松,再跑一个带视觉能力的模型就可以了,2 个模型同时加载也不会爆显存,一起干活挺快的,难度高点就跑 Qwen3-VL-235B-A22B 。192GB 统一内存的好处是未来出了新模型大概率也能跑,不像 4090 48GB,5090 32GB 这种要凑多卡容易爆预算加爆显存。

AMD 的 Max+ 395 这些的瓶颈在于内存带宽,太弱鸡了,能跑但是跑不快,速度只有 M2 Ultra 的 1/3 ,也就跑个 Qwen3-VL-30B-A3B ,如果你体验下来能满足的话,倒也不是不行。
2025 年 11 月 21 日
回复了 wenerme 创建的主题 程序员 LLAMA CPP 比 Ollama 快得多
ollama 就是个废物,在 r/LocalLLaMA 都被喷了好多回了,精准控制参数贼麻烦,还不如直接去 llama-server 看参数 https://github.com/ggml-org/llama.cpp/tree/master/tools/server

而且现在 llama.cpp 自带的 webui 也挺好用的,越来越强大了,缺点就是多个模型加载有点麻烦,要开多个命令。
在 mac 上用 llama.cpp 是最方便的,去 release 页下载编译好的文件就好了,只有 15MB ,追新模型很方便。
举个例子:我跑 gpt-oss-120b 模型,开中等级别推理,这个命令就搞定

/Users/admin/llama/build/bin/llama-server \
-m /Volumes/RC20/lmstudio-community/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf \
--host 0.0.0.0 \
--port 50505 \
-fa on \
-np 4 \
-ub 2048 -b 2048 \
-c 131072 \
--presence-penalty 1.1 \
--n-gpu-layers 99 \
--jinja \
--alias openai/gpt-oss-120b \
--chat-template-kwargs '{"reasoning_effort": "medium"}' \
--temp 1.0 \
--top-p 1.0 \
--top-k 0

Windows 上同理,下载对应的文件解压就用

Linux 上也很方便,N 卡的话直接 cuda13 驱动一装,docker 配置一下 nvidia 作为 runtime 完事

docker run --gpus all \
-v /home/slowgen/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf:/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-p 12345:12345 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
-m /models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-c 40960 \
-np 4 \
--jinja \
--n-gpu-layers 99 \
--temp 0.7 \
--min-p 0.0 \
--top-p 0.8 \
--top-k 20 \
--presence-penalty 1.05 \
--port 12345 \
--host 0.0.0.0 \
--mlock \
-mg 0
2025 年 11 月 20 日
回复了 crocoBaby 创建的主题 Local LLM 折腾了一晚上大模型,索然无味
5060 太丐了,全新也掩盖不了丐的事实,你这个就像“新买了一个 500MB 容量的托管虚拟主机然后部署了一个 WordPress ,玩了一下主题和插件之后索然无味”,能怪 WordPress 太弱吗?
2025 年 11 月 3 日
回复了 zungmou 创建的主题 互联网 虎嗅网被撤销了证书
通配符证书被吊销,那大概率是和测试环境证书共用一个证书,然后被喜欢用 GitHub 做笔记的猪队友把测试环境配置打包下来放笔记里,然后被扫描到了
管理后台首选 amis ,基本上都是在改 json 文件
2025 年 10 月 14 日
回复了 lileyzhao 创建的主题 程序员 奔 4 的.NET 老兵,想深入 AI 大模型方向,但很迷茫
卖课流永不过时
2025 年 10 月 14 日
回复了 xkwdm 创建的主题 Node.js 删除 node_modules 文件夹非常耗时
可以用华硕的 RAMDisk https://dlcdnets.asus.com/pub/ASUS/mb/14Utilities/ASUS_RAMDisk_V2.03.00_for_Windows_10_64-bit.zip (有 Referer 校验,需要地址栏输入打开)
把内存分出来当硬盘,结合 WSL1 在里面使用 rm -rf 删除,超快
2025 年 10 月 12 日
回复了 YanSeven 创建的主题 浏览器 Zen 浏览器疑似内存占用有点高啊
应该是 Firefox 的锅,我最近用 Firefox 开发者版内存泄露了,开游戏经常被杀一开始还以为是游戏的问题,后面检查了内存占用才惊觉是有一个没关 Firefox 吃了六十多 G 内存,Firefox 里的页面也很正常就几个 Github 的项目
2025 年 10 月 6 日
回复了 guin 创建的主题 程序员 感觉前端自学后端是不是还是从 Java 开始学比较好?
跟着这个 roadmap 走就行了 https://roadmap.sh/backend?r=backend-beginner ,最多加个消息队列 RabbitMQ 和搜索引擎 Elasticsearch ,非要去 java 屎里淘金干啥…首选 node 和 go ,选对已经成功一半了。

目标是“软件工程师”而不是“x 语言程序员”,先掌握更多的后端架构知识才是正确的道路。
很多时候做技术方案不是越多越好,一股脑做加法的都是菜得抠脚的人,你看 java 那些课程觉得人家内容多,我看过去还觉得是一开始方向错了只能引入更多的蹩脚方案来弥补,疯狂堆屎山。做减法才有技术含量。

我搜了下你那些充电桩、AI 、网约车课程,给你理一理里面内容:

充电桩:
SpringBoot3:正常的 web 框架,没啥特别的;
MQTT:RabbitMQ 加插件;
WebSocket:node 、go 更擅长,甚至 deno 和 bun 在标准库里都实现好了;
Netty:就是 JavaScript 在 async/await 之前的回调地狱的时代那套东西;
时序数据库:PostgreSQL 装个 TimescaleDB 插件搞定;
Protobuf:好坏参半的 RPC ,复杂度增加很多,真要用你还得考虑很多东西,不如纯 http 调用接口,最多加个 Dapr 在中间;

AI 课:
LangChain4j:一个库,你用 LlamaIndex.TS 就得了;
RAG:LlamaIndex 里就有,3 行代码的事 https://developers.llamaindex.ai/typescript/framework/modules/rag/chat_engine/ ,原理在 https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21 这 15 行代码,说白了就是拆分问题里可以搜的东西,搜出来相关内容再 rerank ,然后拼接成字符串贴在上下文里,又回到了 Elasticsearch 或者 PostgreSQL 的 pgvector ,其实难点在召回高质量内容,和 java 没啥关系;
记忆: https://developers.llamaindex.ai/typescript/framework/modules/data/memory/#configuring-memory-for-an-agent 有效代码不到 20 行…还是字符串拼接;
tools + MCP: https://developers.llamaindex.ai/typescript/framework/modules/agents/tool/#tool-function 有效代码加起来不到 50 行…

AI 课:和 java 有点关系但不多,算是一个 API Caller 加点项目设计吧,这也能水 13 小时课程,看得我也想去卖课了……

网约车课:
SpringCloud 微服务体系:有 k8s 之后没它什么事,也就 java 存量项目在用,真正要学的是 k8s 这套体系,结合你的代码正确的跑在 k8s 上面。

要是会打一个极简的 docker 镜像然后自己在云厂商的容器服务/serverless 里跑起来再配置一个网关入口你已经超越 98%的同行了。要是在云厂商通过界面操作点点点配置好弹性伸缩你已经超越 99%同行了。此时一部分 java 还在解决容器太大启动太慢和内存占用太高的问题,一部分 java 在看某屎山动态线程池方案想办法给自己的服务从 50 并发优化到 100 并发,而你在喷云厂商为啥我 1 核 512MB 内存的容器明明能抗三五千并发,你的共享型 API 网关并发额度才给到我 500 。

要是框架选了 honojs 然后部署到 cloudflare worker 你就已经超越 99.5%的同行了,你的应用现在已经打不死了,能打死你的是下游扛不住的各种组件和你的账单。

AI 写代码正确性最高的语言:
Go (语法简陋、特性少、概念少、标准库质量高,已经被 AI 学透了,从 30B 到 1000B 级别的 AI 写出来都差不多,反正遇事不决可以让 AI 当场搓一个库给你)
JavaScript/TypeScript(高质量代码库多,毕竟前端娱乐圈一言不合开个 NPM 仓库,9 行代码的 is-odd 都要搞一个包,还写一堆测试代码和 lint ,产能超强,喜欢追新,AI 容易学到新内容);
Python (高质量代码库多,但是异步生态垃垮所以高质量异步代码少,AI 写同步代码还行,写异步代码能力差)

你在 groq 里创建个免费 api key ,选个 gpt-oss-120b (速度接近 500token/s )或者 kimi-k2-instruct-0905(速度 220token/s),用来写这 3 个语言正确率都能有 95%甚至更高,你看都来不及,何苦去用 java 呢,限制你的只有你的后端体系知识,因为每个 AI 给的方案可能都不一样,你需要判断这“上中下策”里哪一个才是“上策”,所以按照最开始的 roadmap 打好基础才是正道。
2025 年 9 月 19 日
回复了 wh469012917 创建的主题 程序员 Swoole 下的 Hyeprf 框架,现在的维护计划怎么样?
现在只是为当时的选择还债而已,5 年前就应该迁移到 go 了,再不济迁移到 nodejs 也好过继续 php 。
你现在迁移到 go 有个好处就是 AI 写 go 的能力几乎是溢出的,比其它语言准确性高很多,在 AI 加持下迁移应该很快
2025 年 9 月 19 日
回复了 PilgrimSun 创建的主题 Solana 关于我买和卖 v 币的说明
哈哈,来点代币,打赏有价值的帖子还挺有意思
2025 年 9 月 16 日
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 也不能说写伪代码,正常提需求是可以的,举个例子
https://chat.qwen.ai/s/e80b06a7-f08b-4c10-b556-ab71b158a0b1?fev=0.0.208 30B 参数写的

https://chat.qwen.ai/s/1a84cca6-4818-43fc-a131-24b48bbc7d41?fev=0.0.208 80B 参数写的

https://yuanbao.tencent.com/bot/app/share/chat/Ua8dLAdHJBHj 671B 参数写的,还开了推理

几乎没差别,但是你把问题换成其它编程语言看看?
https://chat.qwen.ai/s/0d258b03-a808-415b-8523-a76b33ba27a9?fev=0.0.208

这里一下用 3 个模型同时回答,只有 480B 的 Qwen-Coder 意识到高性能要用 asyncio ,写出来的代码能跑,但是也有 2 个语法问题:finally 代码块里的变量作用域不对。
2025 年 9 月 16 日
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 如果跑 Qwen3-Next-80B-A3B 的 int8 ,单 96G DDR5 6400 确实够了,但是这个系列分推理和非推理模型,我日常是 2 个模型都会常驻的,如果你也像我一样操作那 96G 内存就不太够。

但是如果你仔细观察 Qwen3-Next-80B-A3B-Thinking 的跑分,会发现它比 Qwen3-30B-A3B-2507-Thinking 提升也不到 10%……估计你手头现有硬件都能跑了。

这些跑分提升不到 10%是什么概念?我最近用这些模型来测编程能力,发现了一个很有趣的现象,理论上大模型现在写 python 、javascript 能力最好,但是 golang 因为关键字就 25 个,特性也少足够简陋,所以 Qwen3 这 30B 级别的模型写出来的 golang 代码居然和更大更顶级的模型差距非常小,准确度超级高
2025 年 9 月 16 日
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 22B 的 Q8 量化加上 KV Cache ,32G 显存还真不一定放得下,你可以用这个 https://smcleod.net/vram-estimator/ 算一下。带宽的话叠加不了,一般是计算分层,Q4 量化推理速度都不一定能到 30 ,我肉眼看 https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/flashmoe_quickstart.md 这里的 gif 估摸着单卡速度也就 12token/s 的样子,这个配置还是跑新出的 Qwen3-Next-80B-A3B 系列实在,和 235B 的百分比差距很小了
2025 年 9 月 16 日
回复了 Ketteiron 创建的主题 TypeScript TypeScript5.9,仿佛走出草原来到了现代社会
没切 deno 前确实有 zod 类型推导延迟这个问题,webstorm 更加严重根本反应不过来类型已经变更了……
1  2  3  4  5  6  7  8  9  10 ... 27  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2904 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 03:02 · PVG 11:02 · LAX 19:02 · JFK 22:02
♥ Do have faith in what you're doing.