V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
v2306
0.11D
V2EX  ›  问与答

求助,各位有没有使用过 PaddleOCR 的

  •  1
     
  •   v2306 · 2 天前 · 1136 次点击

    原图长这样,

    识别后结果:

    Docekr 部署的 PaddleOCR-VL

    问题就是列错位了,个别情况单位还识别不出来,官网的 API 也是这样,试了一下官网三个模型,就 VL 感觉还行

    Windows 开发用过 PP-StructureV3 ,对数字的识别不太友好

    除了拿到结果进行后处理,还有没有其他方法,让模型更加准确一点

    AI 也给不出实质性的回答,只能来碰碰运气了

    22 条回复    2026-01-01 18:50:23 +08:00
    gyang1111
        1
    gyang1111  
       2 天前
    我 ocr 是直接 tg bot 部署到 cf worker 上调用 gemini api ,ai studio 的 key 有免费额度,偶尔用用效果还不错。。
    SanjinGG
        2
    SanjinGG  
       2 天前
    你要用别人封装的效果好点,PaddleOCR 自身很重,效果也一般,需要调教
    fizzzzz
        3
    fizzzzz  
       2 天前   ❤️ 1
    前段时间处理过类似的,表格我用的 PP-StructureV3 ,然后让 ai 用 python 写了一个根据坐标还原结构的处理。自己利用坐标结构还原表格,不依赖 ocr 的结果。
    fizzzzz
        4
    fizzzzz  
       2 天前
    @fizzzzz 我这个是识别后处理的办法,当时也是没找到提高模型的办法,在 查看 issue 和 ai 聊天了解到微调并不一定是正反馈有可能越微调效果越差了
    fizzzzz
        5
    fizzzzz  
       2 天前   ❤️ 1
    @fizzzzz #4 再推荐一个 mineru ocr 你也可以试试效果
    v2306
        6
    v2306  
    OP
       2 天前
    @fizzzzz #3 感谢提供思路
    v2306
        7
    v2306  
    OP
       2 天前
    @SanjinGG 相当重了
    donaldturinglee
        8
    donaldturinglee  
       2 天前
    如果没有经费调用 API ,那就自己做标注训练
    tboy
        9
    tboy  
       2 天前   ❤️ 1
    给你个思路按列切割在识别
    TheGreatSage
        10
    TheGreatSage  
       2 天前
    用过,做购物小票识别,准确率一半一半吧,很考验拍照的角度
    cryptovae
        11
    cryptovae  
       2 天前   ❤️ 1
    lululau
        12
    lululau  
       2 天前   ❤️ 1
    yaleyu
        13
    yaleyu  
       2 天前   ❤️ 1
    最近发现一个识别率挺高的 OCR ,https://github.com/datalab-to/surya, 识别你的图片如下
    supermama
        14
    supermama  
       2 天前
    用了好几年,一直是自己二次训练。稳定性还不错。
    v2306
        15
    v2306  
    OP
       2 天前
    @yaleyu #13 可以啊
    v2306
        16
    v2306  
    OP
       2 天前
    @supermama #14 老哥怎么二次训练啊,没搞过
    yaleyu
        17
    yaleyu  
       2 天前
    @v2306 #15 我也是前段时间有识别表格的需求,发现 PP- Structure 老是错位,还有要识别带音乐符号的字幕,PP-OCR 识别不了音乐符号🎵,找到这个的,不过这个超级慢。
    v2306
        18
    v2306  
    OP
       2 天前
    @yaleyu #17 一模一样哈,PP-structure 真的不好用,识别我那张图数量和单价数值都是连在一起的。这个 VL 也慢
    mengyx
        19
    mengyx  
       2 天前 via iPhone
    immich 的 OCR 用的就是这个,感觉效果还不错
    supermama
        20
    supermama  
       2 天前
    @v2306 你可以看下 paddle 官网,官网有文档教怎么做的。
    Censhuang
        21
    Censhuang  
       1 天前
    效果就是差,建议从百度云上调用,不过百度云应该是没有说云上部署的是开源 paddle
    v2306
        22
    v2306  
    OP
       1 天前
    @Censhuang 百度云那个示例,真的是又快又准,还能选择不同的场景;但是领导说了,又是发票又是合同的,放到公有云不安全😅
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2368 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 05:20 · PVG 13:20 · LAX 21:20 · JFK 00:20
    ♥ Do have faith in what you're doing.