现在学校的东西，真是不知从何吐槽好

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3652 天前的主题，其中的信息可能已经有所发展或是发生改变。

在做爬虫的东西打算爬图书馆，用的是 python 的 BeautifulSoup 包，结果发现有个地方无论如何都报错，查看源代码的时候我彻底的醉了

http://i.imgur.com/INbri4b.jpg

PS:非学生写的，但学校的网站真是大部分都是豆腐渣工程

爬虫

Python

豆腐渣

学校

15 条回复 • 2016-01-13 12:43:21 +08:00

binux

2016 年 1 月 13 日

我看了看, 好像也没什么问题啊

HanSonJ

2016 年 1 月 13 日

@binux tr 包含的两个 td 标签都没有闭合

binux

2016 年 1 月 13 日

@HanSonJ html5 新标准可以不闭合啊, 就算标准出来以前, 这种没有歧义的浏览器能正确修正

HanSonJ

2016 年 1 月 13 日

@binux 说是这样，就相当于 JavaScript 可以不加;但还是会很多人加上去，觉得这是标准吧，浏览器是会自动修正，但就苦了我这些人了。。。

binux

2016 年 1 月 13 日

@HanSonJ 别说 JS 加;是标准, 很多人会来告诉你, 不加才对. 你应该用一个好一点的 html 解析库或者 BeautifulSoup 的 backend, 比如 lxml, html5lib

HanSonJ

2016 年 1 月 13 日

@binux 谢了，感觉这才是解决方法的方式，但我已经用了并且加上正则解决了，下次再看这些包

HanSonJ

2016 年 1 月 13 日

@binux 对了，我的是 python3 ，这些包还有么？

binux

2016 年 1 月 13 日

@HanSonJ 应该有

DuckJK

2016 年 1 月 13 日

binux 写的 pyspider 也不错的，你可以去他博客看看。

HanSonJ

2016 年 1 月 13 日

@DuckJK 谢了，刚学没用框架，正想找个框架学习

HanSonJ

2016 年 1 月 13 日

@DuckJK 不知有没有好的 orm 可以推荐一下呢？

zdkmygod

2016 年 1 月 13 日

还用这种 CSS ，估计是很早的系统了。
那时候 XHTML 还没有成为潮流呢，这么写也没什么问题，就像现在的 javascript 不写分号一样。

l0wkey

2016 年 1 月 13 日

@HanSonJ py3 的话，可以用 bs4 .

HanSonJ

2016 年 1 月 13 日

@l0wkey 对，用的就是 bs4,然后出现上面的问题了

justjavac

2016 年 1 月 13 日

反爬虫新技能 get