V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Myprincess
V2EX  ›  程序员

如何提取 PDF 文档中的文字-(备注:文字被转曲线了)

  •  
  •   Myprincess · 2020-10-18 08:50:32 +08:00 · 4225 次点击
    这是一个创建于 1482 天前的主题,其中的信息可能已经有所发展或是发生改变。

    文档中的文字排版不规则。有没有好的软件推荐。

    37 条回复    2020-10-19 20:11:12 +08:00
    jarry777
        1
    jarry777  
       2020-10-18 09:19:01 +08:00
    OCR
    Myprincess
        2
    Myprincess  
    OP
       2020-10-18 09:25:45 +08:00
    @jarry777 ocr 能扫出来吗?这个是说明书。每个字体都是独立的。并且排版很乱。都不在一条直线上。
    yiXu
        3
    yiXu  
       2020-10-18 09:48:42 +08:00   ❤️ 1
    @Myprincess 试试不要钱的 ocr,我一般电脑的用福昕,手机用白描(免费有次数限制)。其他的也有很多,都试试吧,正确率啥的,一般字是正的,不是奇形怪状,应该都还好,付费的话,应该会提高正确率,但是可能也就那样吧
    jedicxl
        4
    jedicxl  
       2020-10-18 09:49:05 +08:00
    有什么说明书会排版乱到文字识别都不行的程度?
    那还不如找个非扫描版的说明书来的快了
    gcyrn
        5
    gcyrn  
       2020-10-18 09:49:50 +08:00
    Adobe Acrobat
    yiXu
        6
    yiXu  
       2020-10-18 09:50:11 +08:00
    简单方便的小软件的话,天若 ocr 文字识别,免费的,电脑的。收费的是开通功能,但是这个功能是可以调用付费接口,而接口是自己申请的,清楚了再付费。
    Myprincess
        7
    Myprincess  
    OP
       2020-10-18 09:55:07 +08:00
    @gcyrn 不行,试了。动不了。一个字都动不了。
    jdhao
        8
    jdhao  
       2020-10-18 09:57:23 +08:00 via Android
    有没有样张看一下?
    lichdkimba
        9
    lichdkimba  
       2020-10-18 09:59:38 +08:00
    量小的话手打出来可能最快。。
    icyalala
        10
    icyalala  
       2020-10-18 11:33:03 +08:00
    ABBYY FineReader,可以设置原始字体来扫描
    DreamSpace
        11
    DreamSpace  
       2020-10-18 11:55:23 +08:00 via Android
    pdf 是一种描述文本书写方式的格式。如果很确定需要处理的是文字而非图片,那可以尝试用 pdf 相关的库解析一下
    yihaomizhijia
        12
    yihaomizhijia  
       2020-10-18 12:11:05 +08:00
    找个人力成本低的人手打就是了。上万字另说。
    Myprincess
        13
    Myprincess  
    OP
       2020-10-18 12:11:49 +08:00
    @jdhao
    @DreamSpace
    @icyalala
    文字是被转为图片了。无法改动。用 PDF 软件打开,单字都无法复制。
    tees
        14
    tees  
       2020-10-18 12:13:26 +08:00
    你这个只能 ocr 了
    dsg001
        15
    dsg001  
       2020-10-18 12:48:50 +08:00
    天若 5.0,免费,使用百度接口,只要不太过分,识别率还行
    Gathaly
        16
    Gathaly  
       2020-10-18 13:42:50 +08:00
    投影法更正
    user8341
        17
    user8341  
       2020-10-18 14:02:01 +08:00
    天若、福昕都是完整的软件。有没有可用在程序里的 OCR 库?
    Porphet
        18
    Porphet  
       2020-10-18 14:06:46 +08:00   ❤️ 1
    腾讯开放的 ocr,优图 ocr,还有其他像阿里百度都有免费的 ocr,准确度很高
    Arrowing
        19
    Arrowing  
       2020-10-18 14:13:05 +08:00
    我前几天也在找,找了很多个试了,发现这个识别率还可以,不过还是不满足我的要求,你可以试试看。
    https://zhcn.109876543210.com
    RioDoubleD
        20
    RioDoubleD  
       2020-10-18 14:32:26 +08:00
    上个图看看,abbyy 可以调图片弯曲
    rund11
        21
    rund11  
       2020-10-18 14:55:36 +08:00 via Android
    这种复杂文字 ocr 就要用百度,腾讯的识别接口,识别率还是很高的
    icyalala
        22
    icyalala  
       2020-10-18 15:01:37 +08:00   ❤️ 1
    @Myprincess 说的就是这种情况啊,用 ABBYY FineReader 来进行 OCR,识别图片中的文字。你可以设置一个原始字体或者比较接近的中文字体,那样识别率会更高。
    user8341
        23
    user8341  
       2020-10-18 16:28:58 +08:00
    @Porphet 都是 API 吗?有没有不依赖网络的能独立运行的库?
    Raynard
        24
    Raynard  
       2020-10-18 17:21:19 +08:00
    office 手机版扫描试试
    bamboopainter
        25
    bamboopainter  
       2020-10-18 17:21:22 +08:00 via iPhone
    打印出来,再用 scansnap 扫成电子版
    Myprincess
        26
    Myprincess  
    OP
       2020-10-18 17:30:28 +08:00
    @Arrowing 试了,全黑色底文字有些识别不了。左右黑色 ,图片不会被切,上下黑,图片会被切掉。其它文字很棒。
    miaomiao888
        27
    miaomiao888  
       2020-10-18 19:13:01 +08:00
    你这帖子中有贴图吗,得看看是哪样的字吧。

    可以试试 PandaOCR,里面有 20 来个 OCR 引擎你可以逐个试试看哪个更适合:github.com/miaomiaosoft/PandaOCR

    要是过于不规则的字可能要用离线 OCR 自己训练了
    Lemeng
        28
    Lemeng  
       2020-10-18 21:16:09 +08:00
    有一大堆吧。51 破解?
    dabaibai
        29
    dabaibai  
       2020-10-18 22:47:12 +08:00 via Android
    什么曲线? svg ?
    flynaj
        30
    flynaj  
       2020-10-18 23:01:42 +08:00 via Android
    qq 带的 OCR Ctrl+ALT+O
    dadaslele
        31
    dadaslele  
       2020-10-18 23:20:23 +08:00
    在线版本的,图片都能给你抠出来,支持 pdf2word,pdf2ppt 等等
    https://easypdf.com/
    Pichai
        32
    Pichai  
       2020-10-19 02:36:07 +08:00
    https://smallpdf.com/cn
    你试试这个网站,上面有 pdf 转 word 。还有在线编辑 pdf 的。转换之前是每天可以免费使用两次该功能,其他的暂时不清楚。希望能帮到你。
    Porphet
        33
    Porphet  
       2020-10-19 09:07:54 +08:00
    @user8341 那估计需要你自己训练一个 ocr 的模型了,现在主流算法都换成神经网络了吧,我是做 nlp 的所有不了解
    dany813
        34
    dany813  
       2020-10-19 09:28:04 +08:00
    @dadaslele 刚转换一个 PDF,排版乱了
    user8341
        35
    user8341  
       2020-10-19 12:31:35 +08:00
    @Porphet 很想知道有没有训练好的,27 楼那个不知道是不是。
    Porphet
        36
    Porphet  
       2020-10-19 15:25:50 +08:00
    @user8341 不是、他也是调用 api,训练好的不可能开源吧,实在想用可以去搜搜论文
    kasusa
        37
    kasusa  
       2020-10-19 20:11:12 +08:00
    用用 QQ 的 OCR,便捷,免费,在截图功能里面.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   933 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 21:51 · PVG 05:51 · LAX 13:51 · JFK 16:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.