有一个 pdf 文件,文件内容是一些规则排版的文字,但不是汉语,用目前的一些 ocr 也不能很好的识别出这些文字。
现在我想将 pdf 每一页转成图片,然后将图片中的每一个文字截取出来变成图片单独存储,现在的问题是不知道怎么样将每一个文字截取出来变成单独的图片,请问有什么合适不合适方法或者工具可以推荐一下吗?
1
jdhao 2020-10-31 17:36:35 +08:00 via Android
每一个字单独抠出来,你怎么确定每一个字在图像中的位置啊?
|
2
lichdkimba 2020-10-31 17:37:23 +08:00
如果量不大 手打最快最简单
|
4
cbwood OP @lichdkimba 量很大,500 页 pdf
|
5
coderluan 2020-10-31 17:52:39 +08:00 3
给个思路,首先把根据文字颜色把图像二值化(文字的颜色全变成白色,其余的颜色变成黑色),然后进行膨胀变化(白色会变胖),这样文字部分会连成大白块,然后可以获取这些大白块的轮廓,然后获取这个轮廓的最小外接矩形,然后在原图中按这个矩形裁剪就行了,可以用 opencv 实现,上面提到的操作全有现成的 API 。
|
8
3dwelcome 2020-10-31 19:23:19 +08:00 via Android
调用个 pdf 库,把 unicode 每个字符,逐个转换成图片不就可以了。
|
9
upczww 2020-10-31 19:25:36 +08:00 via Android
先用文本检测,再用 ocr
|
11
3dwelcome 2020-10-31 23:38:18 +08:00 via Android
@cbwood 不用 ocr 啊,你本来 pdf 里就是存文字的,随便用个库,读出来也是文字。
如果原始 PDF,非汉子的那种语言是图片,那你直接切分图片就可以了,同样不需要 ocr 识别。 |
12
turan12 2020-10-31 23:45:06 +08:00
如果方便的话楼主可以把其中一段文字截图发上来看看
|