1
xiri 2020-01-14 14:38:01 +08:00 via Android
pdf 对信息自动化处理来说简直是噩梦🙃
|
2
EricInBj 2020-01-14 14:39:02 +08:00
应该有错误输出的,大概率是字体缺失?
|
3
BryceBu OP |
4
PopRain 2020-01-14 15:25:46 +08:00
我觉得是类库不支持嵌入字体
|
5
Rorysky 2020-01-14 15:26:39 +08:00
pymupdf 试试
|
6
BryceBu OP 刚刚在 Ubuntu 上试了一下,可以识别了
我下载的 STSong-light 字体文件都不能安装 看来原因还是 Windows 不支持这个字体? |
7
huaxie1988 2020-07-09 17:54:57 +08:00
为什么我 windows 和 centos 都读不出来中文
|
8
BryceBu OP @huaxie1988 #7 先用工具识别出 pdf 的字体,再查你的系统支不支持这个字体
|
9
aec4d 2020-07-14 12:01:39 +08:00
先用工具把 PDF 文件标准化(比如内嵌字体),在用商业 PDF 软件尝试编辑,如果商业 PDF 软件能编辑你想要的文本,说明这个文本可以程序解析,并不是一张图片
接下来就是用这种工具 https://github.com/pdfminer/pdfminer.six 读取文本 |