V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  slowgen  ›  全部回复第 1 页 / 共 27 页
回复总数  537
1  2  3  4  5  6  7  8  9  10 ... 27  
5 天前
回复了 street000 创建的主题 Node.js Anthropic 收购 Bun
其实是不太利好 Deno 的一集,Deno 那个 compile 只是把代码无脑合并成一个文件(连压缩都没,注释还保留着)再嵌入 Deno 里,Bun 的 compile 虽然也是合并代码后嵌入到 Bun ,但是还可以 minify + bytecode ,比 Deno 小个几十 MB 。

虽然 Bun 的稳定性一般,但是拿来做客户端工具太爽了,不去和 Deno 、Node 在服务端领域竞争的话没对手
https://chat.qwen.ai/https://chat.z.ai/ 选择带 V 型号的模型,把脱敏或者不重要的图片丢进去问,如果能满足需求就可以按照这些模型大小买硬件。

OCR 能力可以体验 https://huggingface.co/spaces/tencent/HunyuanOCR ( https://huggingface.co/tencent/HunyuanOCR ) 和 https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo ( https://huggingface.co/PaddlePaddle/PaddleOCR-VL ) ,不到 1B ,是个电脑都能跑。

5w 以内能买的性价比最高就是 192GB 的官方翻新的 Mac Studio Apple M2 Ultra (24 核 CPU + 60 核的 GPU)那款,跑个 gpt-oss-120B 和 Qwen3-Next-80B-A3B 都很轻松,再跑一个带视觉能力的模型就可以了,2 个模型同时加载也不会爆显存,一起干活挺快的,难度高点就跑 Qwen3-VL-235B-A22B 。192GB 统一内存的好处是未来出了新模型大概率也能跑,不像 4090 48GB,5090 32GB 这种要凑多卡容易爆预算加爆显存。

AMD 的 Max+ 395 这些的瓶颈在于内存带宽,太弱鸡了,能跑但是跑不快,速度只有 M2 Ultra 的 1/3 ,也就跑个 Qwen3-VL-30B-A3B ,如果你体验下来能满足的话,倒也不是不行。
18 天前
回复了 wenerme 创建的主题 程序员 LLAMA CPP 比 Ollama 快得多
ollama 就是个废物,在 r/LocalLLaMA 都被喷了好多回了,精准控制参数贼麻烦,还不如直接去 llama-server 看参数 https://github.com/ggml-org/llama.cpp/tree/master/tools/server

而且现在 llama.cpp 自带的 webui 也挺好用的,越来越强大了,缺点就是多个模型加载有点麻烦,要开多个命令。
在 mac 上用 llama.cpp 是最方便的,去 release 页下载编译好的文件就好了,只有 15MB ,追新模型很方便。
举个例子:我跑 gpt-oss-120b 模型,开中等级别推理,这个命令就搞定

/Users/admin/llama/build/bin/llama-server \
-m /Volumes/RC20/lmstudio-community/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf \
--host 0.0.0.0 \
--port 50505 \
-fa on \
-np 4 \
-ub 2048 -b 2048 \
-c 131072 \
--presence-penalty 1.1 \
--n-gpu-layers 99 \
--jinja \
--alias openai/gpt-oss-120b \
--chat-template-kwargs '{"reasoning_effort": "medium"}' \
--temp 1.0 \
--top-p 1.0 \
--top-k 0

Windows 上同理,下载对应的文件解压就用

Linux 上也很方便,N 卡的话直接 cuda13 驱动一装,docker 配置一下 nvidia 作为 runtime 完事

docker run --gpus all \
-v /home/slowgen/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf:/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-p 12345:12345 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
-m /models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-c 40960 \
-np 4 \
--jinja \
--n-gpu-layers 99 \
--temp 0.7 \
--min-p 0.0 \
--top-p 0.8 \
--top-k 20 \
--presence-penalty 1.05 \
--port 12345 \
--host 0.0.0.0 \
--mlock \
-mg 0
19 天前
回复了 crocoBaby 创建的主题 Local LLM 折腾了一晚上大模型,索然无味
5060 太丐了,全新也掩盖不了丐的事实,你这个就像“新买了一个 500MB 容量的托管虚拟主机然后部署了一个 WordPress ,玩了一下主题和插件之后索然无味”,能怪 WordPress 太弱吗?
36 天前
回复了 zungmou 创建的主题 互联网 虎嗅网被撤销了证书
通配符证书被吊销,那大概率是和测试环境证书共用一个证书,然后被喜欢用 GitHub 做笔记的猪队友把测试环境配置打包下来放笔记里,然后被扫描到了
管理后台首选 amis ,基本上都是在改 json 文件
卖课流永不过时
55 天前
回复了 xkwdm 创建的主题 Node.js 删除 node_modules 文件夹非常耗时
可以用华硕的 RAMDisk https://dlcdnets.asus.com/pub/ASUS/mb/14Utilities/ASUS_RAMDisk_V2.03.00_for_Windows_10_64-bit.zip (有 Referer 校验,需要地址栏输入打开)
把内存分出来当硬盘,结合 WSL1 在里面使用 rm -rf 删除,超快
57 天前
回复了 YanSeven 创建的主题 浏览器 Zen 浏览器疑似内存占用有点高啊
应该是 Firefox 的锅,我最近用 Firefox 开发者版内存泄露了,开游戏经常被杀一开始还以为是游戏的问题,后面检查了内存占用才惊觉是有一个没关 Firefox 吃了六十多 G 内存,Firefox 里的页面也很正常就几个 Github 的项目
跟着这个 roadmap 走就行了 https://roadmap.sh/backend?r=backend-beginner ,最多加个消息队列 RabbitMQ 和搜索引擎 Elasticsearch ,非要去 java 屎里淘金干啥…首选 node 和 go ,选对已经成功一半了。

目标是“软件工程师”而不是“x 语言程序员”,先掌握更多的后端架构知识才是正确的道路。
很多时候做技术方案不是越多越好,一股脑做加法的都是菜得抠脚的人,你看 java 那些课程觉得人家内容多,我看过去还觉得是一开始方向错了只能引入更多的蹩脚方案来弥补,疯狂堆屎山。做减法才有技术含量。

我搜了下你那些充电桩、AI 、网约车课程,给你理一理里面内容:

充电桩:
SpringBoot3:正常的 web 框架,没啥特别的;
MQTT:RabbitMQ 加插件;
WebSocket:node 、go 更擅长,甚至 deno 和 bun 在标准库里都实现好了;
Netty:就是 JavaScript 在 async/await 之前的回调地狱的时代那套东西;
时序数据库:PostgreSQL 装个 TimescaleDB 插件搞定;
Protobuf:好坏参半的 RPC ,复杂度增加很多,真要用你还得考虑很多东西,不如纯 http 调用接口,最多加个 Dapr 在中间;

AI 课:
LangChain4j:一个库,你用 LlamaIndex.TS 就得了;
RAG:LlamaIndex 里就有,3 行代码的事 https://developers.llamaindex.ai/typescript/framework/modules/rag/chat_engine/ ,原理在 https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21 这 15 行代码,说白了就是拆分问题里可以搜的东西,搜出来相关内容再 rerank ,然后拼接成字符串贴在上下文里,又回到了 Elasticsearch 或者 PostgreSQL 的 pgvector ,其实难点在召回高质量内容,和 java 没啥关系;
记忆: https://developers.llamaindex.ai/typescript/framework/modules/data/memory/#configuring-memory-for-an-agent 有效代码不到 20 行…还是字符串拼接;
tools + MCP: https://developers.llamaindex.ai/typescript/framework/modules/agents/tool/#tool-function 有效代码加起来不到 50 行…

AI 课:和 java 有点关系但不多,算是一个 API Caller 加点项目设计吧,这也能水 13 小时课程,看得我也想去卖课了……

网约车课:
SpringCloud 微服务体系:有 k8s 之后没它什么事,也就 java 存量项目在用,真正要学的是 k8s 这套体系,结合你的代码正确的跑在 k8s 上面。

要是会打一个极简的 docker 镜像然后自己在云厂商的容器服务/serverless 里跑起来再配置一个网关入口你已经超越 98%的同行了。要是在云厂商通过界面操作点点点配置好弹性伸缩你已经超越 99%同行了。此时一部分 java 还在解决容器太大启动太慢和内存占用太高的问题,一部分 java 在看某屎山动态线程池方案想办法给自己的服务从 50 并发优化到 100 并发,而你在喷云厂商为啥我 1 核 512MB 内存的容器明明能抗三五千并发,你的共享型 API 网关并发额度才给到我 500 。

要是框架选了 honojs 然后部署到 cloudflare worker 你就已经超越 99.5%的同行了,你的应用现在已经打不死了,能打死你的是下游扛不住的各种组件和你的账单。

AI 写代码正确性最高的语言:
Go (语法简陋、特性少、概念少、标准库质量高,已经被 AI 学透了,从 30B 到 1000B 级别的 AI 写出来都差不多,反正遇事不决可以让 AI 当场搓一个库给你)
JavaScript/TypeScript(高质量代码库多,毕竟前端娱乐圈一言不合开个 NPM 仓库,9 行代码的 is-odd 都要搞一个包,还写一堆测试代码和 lint ,产能超强,喜欢追新,AI 容易学到新内容);
Python (高质量代码库多,但是异步生态垃垮所以高质量异步代码少,AI 写同步代码还行,写异步代码能力差)

你在 groq 里创建个免费 api key ,选个 gpt-oss-120b (速度接近 500token/s )或者 kimi-k2-instruct-0905(速度 220token/s),用来写这 3 个语言正确率都能有 95%甚至更高,你看都来不及,何苦去用 java 呢,限制你的只有你的后端体系知识,因为每个 AI 给的方案可能都不一样,你需要判断这“上中下策”里哪一个才是“上策”,所以按照最开始的 roadmap 打好基础才是正道。
现在只是为当时的选择还债而已,5 年前就应该迁移到 go 了,再不济迁移到 nodejs 也好过继续 php 。
你现在迁移到 go 有个好处就是 AI 写 go 的能力几乎是溢出的,比其它语言准确性高很多,在 AI 加持下迁移应该很快
81 天前
回复了 PilgrimSun 创建的主题 Solana 关于我买和卖 v 币的说明
哈哈,来点代币,打赏有价值的帖子还挺有意思
83 天前
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 也不能说写伪代码,正常提需求是可以的,举个例子
https://chat.qwen.ai/s/e80b06a7-f08b-4c10-b556-ab71b158a0b1?fev=0.0.208 30B 参数写的

https://chat.qwen.ai/s/1a84cca6-4818-43fc-a131-24b48bbc7d41?fev=0.0.208 80B 参数写的

https://yuanbao.tencent.com/bot/app/share/chat/Ua8dLAdHJBHj 671B 参数写的,还开了推理

几乎没差别,但是你把问题换成其它编程语言看看?
https://chat.qwen.ai/s/0d258b03-a808-415b-8523-a76b33ba27a9?fev=0.0.208

这里一下用 3 个模型同时回答,只有 480B 的 Qwen-Coder 意识到高性能要用 asyncio ,写出来的代码能跑,但是也有 2 个语法问题:finally 代码块里的变量作用域不对。
83 天前
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 如果跑 Qwen3-Next-80B-A3B 的 int8 ,单 96G DDR5 6400 确实够了,但是这个系列分推理和非推理模型,我日常是 2 个模型都会常驻的,如果你也像我一样操作那 96G 内存就不太够。

但是如果你仔细观察 Qwen3-Next-80B-A3B-Thinking 的跑分,会发现它比 Qwen3-30B-A3B-2507-Thinking 提升也不到 10%……估计你手头现有硬件都能跑了。

这些跑分提升不到 10%是什么概念?我最近用这些模型来测编程能力,发现了一个很有趣的现象,理论上大模型现在写 python 、javascript 能力最好,但是 golang 因为关键字就 25 个,特性也少足够简陋,所以 Qwen3 这 30B 级别的模型写出来的 golang 代码居然和更大更顶级的模型差距非常小,准确度超级高
83 天前
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 22B 的 Q8 量化加上 KV Cache ,32G 显存还真不一定放得下,你可以用这个 https://smcleod.net/vram-estimator/ 算一下。带宽的话叠加不了,一般是计算分层,Q4 量化推理速度都不一定能到 30 ,我肉眼看 https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/flashmoe_quickstart.md 这里的 gif 估摸着单卡速度也就 12token/s 的样子,这个配置还是跑新出的 Qwen3-Next-80B-A3B 系列实在,和 235B 的百分比差距很小了
没切 deno 前确实有 zod 类型推导延迟这个问题,webstorm 更加严重根本反应不过来类型已经变更了……
84 天前
回复了 Sirius8 创建的主题 程序员 长时间不关电脑网速下降
@shuimugan 进入“控制面板 > 电源选项 > 更改计划设置 > 更改高级电源设置”,找到“无线适配器设置 > 电源保存模式”,将其从“最大省电”改为“最大性能”
84 天前
回复了 Sirius8 创建的主题 程序员 长时间不关电脑网速下降
感觉前几天就看到过这种案例,案例好像就是联想,解决方案是电源策略里面找一个和无线网卡相关的改掉大概是持续高性能,别节能就解决了。如果是插网线的话可能是扁线的锅
1  2  3  4  5  6  7  8  9  10 ... 27  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3949 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 05:26 · PVG 13:26 · LAX 21:26 · JFK 00:26
♥ Do have faith in what you're doing.