1
hadoop 2014 年 12 月 17 日
怎么解决知乎验证码的问题
|
2
EPr2hh6LADQWqRVH 2014 年 12 月 17 日
bs4的解析效率和xml解析器有关的啊,你装个lxml效率倍增。
而且你多开几个进程不就完了。。这种io指向的情景甚至多开线程都行吧 |
4
invite 2014 年 12 月 17 日
请求多了,小心IP被封。哈哈。
|
7
iewgnaw 2014 年 12 月 17 日
爬虫就不要太追求速度了,太快了很容易封IP的
|
8
imn1 2014 年 12 月 17 日
lxml + xpath 比 bs 快,regex 更快
导出 cookies 可以不在程序中登录,实际上也是要登录,登录界面换成浏览器而已 我的爬虫一向不带登录,只是读取浏览器cookies,因为都是自用,不发布,没必要写那么复杂 |
9
shoumu 2014 年 12 月 17 日
pyquery快一点
|
12
libo26 2014 年 12 月 17 日
“如何自动读浏览器cookies?”
@yaotian google一下,很多。。 比如: http://n8henrie.com/2013/11/use-chromes-cookies-for-easier-downloading-with-python-requests/ |
13
CosWind 2014 年 12 月 17 日 太快了,可以用代理,http://pachong.org/
|