1
ClutchBear 2018 年 11 月 22 日
我记得 pyquery 某个参数可以把没有闭合标签自动解析出闭合的
|
2
fox1955 2018 年 11 月 22 日
npm install sax
|
3
imn1 2018 年 11 月 22 日
建议正则吧,10w+用 dom 解析是难以想象的
用 xml sax 流式解析也可以 |
4
night98 2018 年 11 月 22 日 via Android
格式完全一致还是说其中有部分缺斤少两的?先写个正则把 html 元素干掉,剩下的看规律写正则搞定。
|