1
hadoop 2014-12-17 13:22:31 +08:00
怎么解决知乎验证码的问题
|
2
EPr2hh6LADQWqRVH 2014-12-17 13:26:56 +08:00
bs4的解析效率和xml解析器有关的啊,你装个lxml效率倍增。
而且你多开几个进程不就完了。。这种io指向的情景甚至多开线程都行吧 |
3
egrcc OP @hadoop 登录不一定需要验证码,只有登录错误时,再次登录需要验证码。只要登录正确,下次登录是不需要验证码的
|
4
invite 2014-12-17 13:35:22 +08:00
请求多了,小心IP被封。哈哈。
|
7
iewgnaw 2014-12-17 13:44:39 +08:00
爬虫就不要太追求速度了,太快了很容易封IP的
|
8
imn1 2014-12-17 13:48:44 +08:00
lxml + xpath 比 bs 快,regex 更快
导出 cookies 可以不在程序中登录,实际上也是要登录,登录界面换成浏览器而已 我的爬虫一向不带登录,只是读取浏览器cookies,因为都是自用,不发布,没必要写那么复杂 |
9
shoumu 2014-12-17 13:59:06 +08:00
pyquery快一点
|
12
libo26 2014-12-17 15:32:28 +08:00
“如何自动读浏览器cookies?”
@yaotian google一下,很多。。 比如: http://n8henrie.com/2013/11/use-chromes-cookies-for-easier-downloading-with-python-requests/ |
13
CosWind 2014-12-17 17:36:34 +08:00 1
太快了,可以用代理,http://pachong.org/
|