1
menc 2016 年 10 月 23 日
使用容错性高的 html parser ,但是这个问题我记得 bs4 是可以解决的
|
2
MinonHeart 2016 年 10 月 23 日
把标签写正确🙃
|
3
binux 2016 年 10 月 23 日
lxml.html, html5parser
|
5
menc 2016 年 10 月 23 日
|
6
mhycy 2016 年 10 月 23 日
碰上这种页面直接上正则表达式解决
|
7
binux 2016 年 10 月 23 日
@menc
In [1]: import lxml.html In [2]: dom = lxml.html.fromstring(u'<a target="_blank" href="http://wenda.eask.org/"><b>我要提问</a></b>') In [3]: print lxml.html.tostring(dom, encoding="unicode") <a target="_blank" href="http://wenda.eask.org/"><b>我要提问</b></a> |
11
firemiles 2016 年 10 月 24 日 via Android
只识别标签头,任意结束标签当当前起始标签的结束,这么干就随意交叉,只要头的顺序对就行
|
12
jaimezhan 2016 年 10 月 24 日
写代码不严谨 或者使用编辑器的插件 自动补充关闭标签减少类似的错误代码
|