1
loading 2013 年 6 月 5 日
我还想说win32api呢…
|
2
swulling 2013 年 6 月 5 日
|
3
Nourl 2013 年 6 月 5 日 思路:
*.doc *.docx是由几个xml文件拼成的,后缀改成*.zip后打开可以看到这几个xml文件。 1. 提取xml文件 2. 脚本xml库读取需要的内容 |
4
homfen 2013 年 6 月 5 日
用UTF8试试
|
5
lizheming 2013 年 6 月 5 日 .doc(x)文档不就是一个压缩包么,你把后缀改成.zip解压就好了...东西一应俱全~
|
7
leafgray 2013 年 6 月 5 日
extract再自己getbytes转一下干什么呢?
docx可以用docx4j.... doc主要还是poi... (JAVA) |
9
xiaoxuxu 2013 年 6 月 5 日
中文应该都是GB2312。以前试过用poi转成html,中文是正常的
|
11
micyng 2013 年 6 月 6 日
docx有标准协议,直接看协议文档不就好了
|
12
dreampuf 2013 年 6 月 6 日
MS Office 有两种协议 97(H*F)和03(X**F),不要自己解压然后解析,开源最成熟(相对)是Apache POI,例子 http://poi.apache.org/text-extraction.html
如果是单纯导出文本也可以借鉴基于POI的 tika http://tika.apache.org/ > The Apache Tika™ toolkit detects and extracts metadata and structured text content from various documents using existing parser libraries. |
13
Muninn 2013 年 6 月 6 日
好勤奋呀,研究这个,我都是直接用库或者Win32 API的
|