在做爬虫的东西打算爬图书馆,用的是 python 的 BeautifulSoup 包,结果发现有个地方无论如何都报错,查看源代码的时候我彻底的醉了
http://i.imgur.com/INbri4b.jpg
PS:非学生写的,但学校的网站真是大部分都是豆腐渣工程
1
binux 2016-01-13 00:35:54 +08:00
我看了看, 好像也没什么问题啊
|
4
HanSonJ OP @binux 说是这样,就相当于 JavaScript 可以不加;但还是会很多人加上去,觉得这是标准吧,浏览器是会自动修正,但就苦了我这些人了。。。
|
5
binux 2016-01-13 00:50:20 +08:00 1
@HanSonJ 别说 JS 加;是标准, 很多人会来告诉你, 不加才对. 你应该用一个好一点的 html 解析库或者 BeautifulSoup 的 backend, 比如 lxml, html5lib
|
9
DuckJK 2016-01-13 08:34:23 +08:00
binux 写的 pyspider 也不错的,你可以去他博客看看。
|
12
zdkmygod 2016-01-13 09:35:08 +08:00
还用这种 CSS ,估计是很早的系统了。
那时候 XHTML 还没有成为潮流呢,这么写也没什么问题,就像现在的 javascript 不写分号一样。 |
15
justjavac 2016-01-13 12:43:21 +08:00
反爬虫新技能 get
|