kakadong 最近的时间轴更新
kakadong

kakadong

V2EX 第 220901 号会员,加入于 2017-03-14 14:58:23 +08:00
kakadong 最近回复了
2017-03-30 14:43:40 +08:00
回复了 dsg001 创建的主题 Python 用 requests 替代 scrapy 的下载器,发现速度很慢,求解
不好意思没认真看,下载了两遍是我说错的,你在 process_request 里返回了 response ,那 scrapy 就不会再去下载这个网页,但这样,并发就完全没有了,跟单线程用 requests 没什么区别
2017-03-30 14:18:29 +08:00
回复了 dsg001 创建的主题 Python 用 requests 替代 scrapy 的下载器,发现速度很慢,求解
你这是在乱搞啊,下载中间件是负责修改每个 request 和 response 的,是不做下载这个动作的!你在里面加一个 requests.get 操作,等于每个网页你都下载了两遍,而且这个 get 操作还是同步的!!
请问招爬虫工程师吗
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2857 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 07:54 · PVG 15:54 · LAX 23:54 · JFK 02:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.