在做一个爬虫程序,图片的服务器用的是qiniu。
要求:
现在碰到一个问题,就是爬一个链接的时候,大量的时间都耗费在了上传图片上。怎么样提高爬取单个链接的效率?
我先提一种解决方案:
先爬站的内容,然后图片用原始的图片链接。然后用工作线程循环查找还有哪些图片没有上传的,依次上传。但是感觉这种设计很复杂,工作线程要查找每个图片的字段,如果以后有新的图片字段,那么这部分逻辑又需要改。
1
myoula 2016 年 2 月 16 日 |
2
ufo22940268 OP |
3
virusdefender 2016 年 2 月 16 日
异步和多线程
|
4
sarices 2016 年 2 月 16 日
放到队列处理啊
|
5
Karblue 2016 年 2 月 16 日
1.多线程爬和传(可以一个队列专门处理爬虫投递过来的链接)
2.先爬。爬完再批量传 |
6
cloverstd 2016 年 2 月 16 日
|
7
muziyue 2016 年 2 月 16 日
根本不用下载再上传呀,设置好镜像可以直接存到七牛里面的
|
8
jedyu 2016 年 2 月 16 日
爬链接和爬图片不要线性执行,多线程或多进程都可以
|