V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Sh1xin  ›  全部回复第 1 页 / 共 2 页
回复总数  24
1  2  
我的经验是直接用 LLM 。OCR 这步省掉,不然有些 OCR 识别出来以后结构有变化,反而会误导 LLM
25 天前
回复了 qingma 创建的主题 职场话题 每天上班都陷入巨大的内耗,何解?
我现在也是这个状态了,原领导调走,没指派新领导。组内另外一个人统管,要疯掉了
25 天前
回复了 Sh1xin 创建的主题 Local LLM 私有化部署 LLM 及 LVM 选型方案意见收集
@mx2dream 资料是客户提供的所需生产信息。涉及到生产数量,价格等内容,很重要。但是小客户太多了,提供的内容格式五花八门,并且也没有资格去约束客户强制统一模板。当前就是人工获取 PDF 等信息,手动复制出来,确认开单。但是这样又会导致校验的人员在一些场景下给客户额外承诺,另外开单,导致库存累加,占用
27 天前
回复了 Sh1xin 创建的主题 Local LLM 私有化部署 LLM 及 LVM 选型方案意见收集
@mx2dream 先使用传统 OCR ,再用 VLM 进行输出结果的方案。之前试过效果不好,因为部分场景下 OCR 识别结果模糊,或者表格等拆分错误。导致 VLM 也错了。不过我们的 RPA 供应商目前也在使用这种方案,不知道这是否是行业通用解决方案,有关联资料可以参考嘛?

目前我这边直接使用 qwen-2.5-vl-32B 。效果还可以。数据计算的部分由后面的 dify 代码节点完成。

当前正在测试机上测试,感谢提供指导
30 天前
回复了 Sh1xin 创建的主题 Local LLM 私有化部署 LLM 及 LVM 选型方案意见收集
@wangmn 公司买的,10W
30 天前
回复了 Sh1xin 创建的主题 Local LLM 私有化部署 LLM 及 LVM 选型方案意见收集
@bluryar 现有需求场景就是三个①知识库②智能客服问答③OCR
30 天前
回复了 Sh1xin 创建的主题 Local LLM 私有化部署 LLM 及 LVM 选型方案意见收集
@cbythe434 别闹哥,公司干活用的
30 天前
回复了 Sh1xin 创建的主题 Local LLM 私有化部署 LLM 及 LVM 选型方案意见收集
@bluryar 其他的目前只有用到一个向量模型,其他暂时没需求,一般小模型的企业内部有啥需求场景嘛,我们目前还没找到,所以没有这方面的考虑
30 天前
回复了 Sh1xin 创建的主题 Local LLM 私有化部署 LLM 及 LVM 选型方案意见收集
@bluryar 是的,也有考虑直接使用一个 Qwen3-VL-235B-A22B 来完成所有功能。就是不知道实际效果,而且看官方是建议 8×80GB 。现有硬件性能不足
40 天前
回复了 Suinn 创建的主题 问与答 最新的 PaddleOCR-VL 模型大家有尝试过吗
PaddleOCR-VL 才 0.9B.怎么跟 Qwen3-vl 比...
你用的是 Qwen3-vl-32B 版本吗,我这边想私有化部署。不知道私有化的识别效果怎么样,2.5-vl-32B 的还有一些场景效果不好
@SuperDaniel313 这不就是传统 RPA 的业务场景
@loloX 我是做业务流程自动化,不是测试自动化。比如现在有一个业务需求是登录系统 A ,然后点击菜单栏"信息录入",然后在出现的表格上面把 excel 信息录入进去。
@duuu 目前最火的 n8n 和 dify 。一个是老牌的 workflow 工具,一个可以实现多 LLM 方便对接。如果 OPENAI 只允许使用自家的 LLM,那应该不容易获取用户吧,如果也选择开放 LLM ,又会影响自家的营收。刚刚试用了一下 Agent builder ,感觉还好简陋的状态
104 天前
回复了 Sh1xin 创建的主题 程序员 Dify LLM 视觉参数问题请教
@mrbananaeros 感谢,另外还有个问题想请教下:如果开始节点上传的图片需要处理后再调用大模型识别。那如何做呢。我测试代码节点生成的类型好像都没法在 LLM 的视觉中获取
136 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@tool2dx 你那边漏字的场景方便详细说下嘛;我试了 5 页 PDF 包含表格和多行文本,可以正常提取表格内容
136 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@youyouzi ollama 。但是我不知道具体细节,运维帮我在弄
136 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
感谢各位指导🙏,目前在线验证 Qwen2.5-VL-32B 识别效果非常好,除了部分数字场景千分位和小数点识别错误,其他都 OK 。私有化部署验证中
136 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@beginor 一般的多模态大模型识别文本准确率不如 OCR 吧,我这边对精准度要求比较高。所以考虑 OCR 识别后 LLM 分析内容获取
136 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@apkapb https://github.com/PaddlePaddle/PaddleOCR/discussions/16114
PaddleOCR 感觉已经很好了,可惜差一点点
136 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@bigtear 私有化部署的多模态大模型直接识别图片效果不好,信息安全角度没法使用 api 调用市面上先进方案
1  2  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   787 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 21:34 · PVG 05:34 · LAX 13:34 · JFK 16:34
♥ Do have faith in what you're doing.