方案一: python 解析 docx 格式支持良好但对 doc 格式支持很差,故希望 doc 转为 docx 格式,有什么好办法? 方案二:将 doc 转为 html 格式,然后解析 html ,测试后发现如果数据量大了支持也不好 大家有什么好办法吗?
注:有近 1w 个*.doc 文档,每个文档 100Mz 左右
1
vicalloy 2016 年 10 月 21 日
是需要提取 doc 里的内容?
https://github.com/dagwieers/unoconv 用这个可以将 doc 转成 html 或 docx 。 |
3
dinosjk 2016 年 10 月 21 日
py 通过 office 之类的软件打开 doc ,转换成 docx ,然后自由发挥。这样呢?
|
4
dinosjk 2016 年 10 月 21 日
之前转换了 2000 多个 doc 入 pdf 用的这种方式
|
5
xuboying 2016 年 10 月 22 日 via iPhone
这种特殊需求还不如现学 VBA 三下五除二,别信 Python 的唯有唯一正确解的梦话。 Perler 说过黑猫白猫,都是好猫
|
6
zungmou 2016 年 11 月 1 日 via iPhone
用 c#调用 office 接口操作 word 进行解析,应该很容易。
|