python-docx 可以处理 docx 文件,doc 会有问题。 如果将 doc 转为 docx 就需要借助外部 win32com 或 libreoffice ,有没有能不借助外部处理方法 或者有没有可以处理 doc 内容获取的的库
1
openmynet 167 天前
Linux 系统下可以使用 wv 进行处理
wvHtml input.doc output.html # to text wvText input.doc output.txt alpine3 liunx: apk add --no-cache wv ubuntu: apt-get install -y wv |
2
azarasi 167 天前
pandoc
|
3
undeflife 167 天前 6
4202 年了,我的方案是不兼容 doc 和 xls 格式
|
4
Latin 167 天前
antiword
|
5
djangovcps 167 天前
aspose
|
6
xiqnshang 167 天前
我之前处理 doc 文件,写了个转换服务把 doc 转成 docx ,然后把 docx 丢给后台处理
|
7
ysc3839 167 天前 via Android
看看 WPS 有没有提供什么 API ?
|
8
lisxour 167 天前 1
还是算了吧,毕竟不开源的格式,你强行支持,在用的时候遇到兼容问题这才真的头痛,你自己几乎是完全无法解决的。
|
9
bugmakerxs 167 天前
word 处理还是第三方比较靠谱,wps ,libreoffice ,aspose
|
10
wumoumou 166 天前
mammoth.browser.js 这个可以把 doc 转成 html ,提取 html 的内容相对容易些
|
11
TsubasaHanekaw 166 天前
找台 windows 用 com+接口把 doc 转成 docx,同时还能完成 word ,excel ,ppt 转成 pdf 这些麻烦操作
|
12
fuge 166 天前
Powershell
|