1
ClutchBear 2018-11-22 18:04:36 +08:00
我记得 pyquery 某个参数可以把没有闭合标签自动解析出闭合的
|
2
fox1955 2018-11-22 18:11:03 +08:00
npm install sax
|
3
imn1 2018-11-22 18:14:53 +08:00
建议正则吧,10w+用 dom 解析是难以想象的
用 xml sax 流式解析也可以 |
4
night98 2018-11-22 23:50:36 +08:00 via Android
格式完全一致还是说其中有部分缺斤少两的?先写个正则把 html 元素干掉,剩下的看规律写正则搞定。
|