有会图像处理的吗，小老弟有个问题想请教一下

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1920 天前的主题，其中的信息可能已经有所发展或是发生改变。

有一个 pdf 文件，文件内容是一些规则排版的文字，但不是汉语，用目前的一些 ocr 也不能很好的识别出这些文字。

现在我想将 pdf 每一页转成图片，然后将图片中的每一个文字截取出来变成图片单独存储，现在的问题是不知道怎么样将每一个文字截取出来变成单独的图片，请问有什么合适不合适方法或者工具可以推荐一下吗？

文字

截取

图片

PDF

12 条回复 • 2020-10-31 23:45:06 +08:00

jdhao

2020 年 10 月 31 日 via Android

每一个字单独抠出来，你怎么确定每一个字在图像中的位置啊？

lichdkimba

2020 年 10 月 31 日

如果量不大手打最快最简单

cbwood

2020 年 10 月 31 日 via Android

@jdhao 这也是一个问题

cbwood

2020 年 10 月 31 日 via Android

@lichdkimba 量很大，500 页 pdf

coderluan

2020 年 10 月 31 日

给个思路，首先把根据文字颜色把图像二值化（文字的颜色全变成白色，其余的颜色变成黑色），然后进行膨胀变化（白色会变胖），这样文字部分会连成大白块，然后可以获取这些大白块的轮廓，然后获取这个轮廓的最小外接矩形，然后在原图中按这个矩形裁剪就行了，可以用 opencv 实现，上面提到的操作全有现成的 API 。

jdhao

2020 年 10 月 31 日 via Android

@coderluan 太不稳定，有的文字挨的很近，你这样能保证每个文字一个连通域吗

cbwood

2020 年 10 月 31 日

@jdhao 基本我的原始图片是可以保证的

3dwelcome

2020 年 10 月 31 日 via Android

调用个 pdf 库，把 unicode 每个字符，逐个转换成图片不就可以了。

upczww

2020 年 10 月 31 日 via Android

先用文本检测，再用 ocr

cbwood

2020 年 10 月 31 日

@3dwelcome 请问可以具体说一下，没有找到可以识别 pdf 文字并保存为图片的库

3dwelcome

2020 年 10 月 31 日 via Android

@cbwood 不用 ocr 啊，你本来 pdf 里就是存文字的，随便用个库，读出来也是文字。
如果原始 PDF，非汉子的那种语言是图片，那你直接切分图片就可以了，同样不需要 ocr 识别。

turan12

2020 年 10 月 31 日

如果方便的话楼主可以把其中一段文字截图发上来看看