外包一个小活儿，需要将 word 的 docx 文档的文字识别出来。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1794 天前的主题，其中的信息可能已经有所发展或是发生改变。

要求：
用 Python
能把章节号也给识别出来，即
原来的格式有 1，1.2 之类的，转换出来的文字也要有。

9 条回复 • 2021-08-03 11:22:03 +08:00

musi

2021 年 3 月 6 日

怎么联系

gulumogu

2021 年 3 月 6 日

联系方式发一下

ilucyx

2021 年 3 月 6 日

@buptrobin 联系我 telegram `@lwbroxjq`

antpi

2021 年 3 月 6 日

YW50eDIwMDYwMQ==

buptrobin

2021 年 3 月 7 日

PDF 如果能准确率高的也行。
就是文字都能识别，而且，章节号也能识别出来，也能知道是章节号。

buptrobin

2021 年 3 月 7 日

@gulumogu YnVwdHJvYmlu

buptrobin

2021 年 3 月 7 日

@musi YnVwdHJvYmlu

bruceche11

2021 年 3 月 10 日

还需要吗？

buptrobin

2021 年 8 月 3 日

@bruceche11 需要 wx：YnVwdHJvYmlu