V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Beeethoven
V2EX  ›  程序员

国内有什么好用的 PDF 文档 OCR 产品吗

  •  
  •   Beeethoven · 2020-08-06 16:50:01 +08:00 · 3221 次点击
    这是一个创建于 1568 天前的主题,其中的信息可能已经有所发展或是发生改变。

    项目语言是 Java,运行在 CentOS6.9 服务器上,主攻业务就是可搜索 PDF ( SearchablePDF )的处理和归档

    最近来了个需求,需要将纯图片 PDF ( ImagePDF )在项目里 OCR,然后继续处理。

    筛选了市面很多产品,最终锁定 ABBYY 的开发者 SDK,可以集成进项目,效果也不错,算市面同类产品独一档。本来和那边客服改谈的都谈好了,Demo 写完了,就等 license 买下来开搞,最后因为是国外软件,不好申请科研经费,方案惨遭腰斩。

    问题来了,现在国内有什么好用的 PDF 文档 OCR 产品?
    几个硬性要求:
    1.可以是 Windows 上的桌面软件(最迫不得已的方案。退而求其次,让用户手动去转),最好是 Linux 上的 SDK
    2.桌面软件支持批量处理,SDK 用多线程操作或者批量操作不会有太大的性能问题
    3.可以保存为可搜索 PDF
    4.除了识别 PDF 页面中的文字,也能识别 PDF 页面中的图片和表格
    5.对 PDF 字体大小和位置敏感,OCR 结果排版应该和原文一致

    福昕应该是国内 PDF 这一块做的最好的了,可惜它只有 Windows 版的 SDK 才支持 OCR 。不知道还有什么选择推荐,先在这里谢谢了

    14 条回复    2021-09-09 16:01:35 +08:00
    Doldrums
        1
    Doldrums  
       2020-08-06 17:08:11 +08:00
    万兴? PDFelement
    tfdetang
        2
    tfdetang  
       2020-08-06 17:49:44 +08:00
    这种 pdf 的 sdk 大概多少钱啊?
    Threeinchtime
        3
    Threeinchtime  
       2020-08-06 17:51:37 +08:00
    我司 intsig
    Morriaty
        4
    Morriaty  
       2020-08-06 18:24:57 +08:00
    ABBYY 似乎要有个物理 U 盘狗才能用?

    国内的话,庖丁科技有个完整的产品叫 PDFlux,demo 看起来很牛逼,不知道有没有付费 sdk
    rocky55
        5
    rocky55  
       2020-08-06 18:26:03 +08:00
    或许我能做,现在的输出是 xml 能定位图片和文字表格,目前的输出是 xml, 主要是 C++ 和 python 写的,实在有需要可以 [email protected]
    jilu171990
        6
    jilu171990  
       2020-08-06 21:00:40 +08:00
    ABBYY 谈下来啥价?
    aosp
        7
    aosp  
       2020-08-07 10:31:26 +08:00
    百度开源的 PaddleOCR 可以自己改造一下
    walkfish
        8
    walkfish  
       2020-08-07 10:37:11 +08:00
    @Threeinchtime 在合合摸鱼,你领导知道么
    Threeinchtime
        9
    Threeinchtime  
       2020-08-07 17:35:43 +08:00
    @walkfish 哟?报上名来
    Gathaly
        10
    Gathaly  
       2020-08-09 15:33:23 +08:00
    专业领域的需要特定业务判断进行版面分析
    开源做的最好的就 tessercert 了
    对于 api caller 而言,遇到表格、图文混合的十有八九会有乱码的
    Beeethoven
        11
    Beeethoven  
    OP
       2020-08-10 09:14:05 +08:00   ❤️ 1
    @jilu171990 每年 10W 页 7000 刀左右
    Beeethoven
        12
    Beeethoven  
    OP
       2020-08-10 09:30:23 +08:00
    @Morriaty 下了一个看了看 重点在表格提取上 ocr 功能挺弱的.. 表格提取我喜欢开源的 tabula 随便按照需求魔改
    johnsonshu
        13
    johnsonshu  
       2020-08-20 18:25:29 +08:00
    @Beeethoven tabula 不能处理图像吧。 只能处理文字型的 PDF
    LoneFireBlossom
        14
    LoneFireBlossom  
       2021-09-09 16:01:35 +08:00
    怪不得 MarginNote 一直没上线桌面端的 ABBYY OCR 功能,这价格确实贵。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5336 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 07:10 · PVG 15:10 · LAX 23:10 · JFK 02:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.