V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
amiwrong123
V2EX  ›  程序员

有没有那种可以识别到缩进宽度的 OCR 库?

  •  
  •   amiwrong123 · 2023-09-11 12:24:09 +08:00 · 1280 次点击
    这是一个创建于 437 天前的主题,其中的信息可能已经有所发展或是发生改变。
    first chapter................1
        introduction.............2
        so.......................4
            dfuh.................5
    second chapter...............10
    

    我现在有个需求是,识别一个 pdf 的目录,我现在通过 py 脚本已经知道了每个标题是啥了,但是不知道他们这些标题分别的级别。它大概长这个样子。里面都是英文单词或数字。

    • 从肉眼上去看,是有缩进的。

    • 但如果用鼠标去框住的话,这些二级标题或三级标题前面,是没有空格的。反正就是框不住 前面这些“肉眼看起来有的空格”。但其他符号都是可以框住的。

    • 我用的 PDFminer 库,这个库是没法识别到缩进的,总是把前面的空格去掉。(当然也或许是我用的不对)

    • 另外一个思路就是:我用一个 OCR 库,它帮我识别出来不同的缩进。所以想问各位 v 友有这种库吗?

    5 条回复    2023-09-11 14:19:38 +08:00
    mhycy
        1
    mhycy  
       2023-09-11 12:38:00 +08:00
    建议找找 AI 相关的 OCR 方案
    iOCZ
        2
    iOCZ  
       2023-09-11 12:39:42 +08:00
    缩进其实不是文本的范畴,是文本框位置大小了,所以你要找找有没有库能提供这些信息
    Sirius8
        3
    Sirius8  
       2023-09-11 13:44:32 +08:00
    百度 OCR+chatgpt 语义识别,目前在用,还可以
    GGMM
        4
    GGMM  
       2023-09-11 13:49:51 +08:00
    我之前用过 Paddle-OCR ,它其中一套流程是这样的:文字框检测,得到词条 -> 词条文字方向判断(横 or 竖)-> 对词条进行文字识别。可能可以对文字框检测这一步加一些条件进行缩进划分。
    amiwrong123
        5
    amiwrong123  
    OP
       2023-09-11 14:19:38 +08:00
    @iOCZ #2
    好像 py 库 pdfminer 本身有这个功能,回头我去试试。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1005 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 20:15 · PVG 04:15 · LAX 12:15 · JFK 15:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.