经常有人建议在 settings.py 中不使用 ITEMS_PIPLINES 里的 RedisPipline,这样提提高性能,可是如果这样做的话,分布式的意义在哪里,下次获取数据没有一个共有的数据库获取了
1
Codewj OP 有大佬可以帮忙解释一下吗
|
2
wizardoz 2018-01-24 13:38:44 +08:00 1
一脸蒙蔽的进来,一脸蒙蔽的走了
|
3
yangzhezjgs 2018-01-24 13:45:40 +08:00
问题都没说清楚。。。
|
4
Codewj OP @wizardoz 关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么
|
5
Codewj OP @yangzhezjgs 关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么
|
6
Codewj OP 或者说不配置的话,分布式体现在哪里
|
7
ilovebaicai 2018-01-24 15:38:32 +08:00
这个是存储数据的配置,需要。不过你可以将生成的 item 存储到任何地方:mysql,hbase,文件一类,当然也包括存到 redis。分布式并不是体现配置 ITEMS_PIPLINES,分布式是体现爬虫共享 redis 队列。
|
8
Codewj OP @ilovebaicai 理解了,谢谢哥
|
9
beforeuwait 2018-01-25 11:34:45 +08:00
分布式应该体现在队列或者消息框架上,数据并不一定要放在一起啊
|
10
Codewj OP @beforeuwait 谢谢🙏
|
11
zyy1245367562 2018-01-28 10:57:24 +08:00
所谓分布式其实就是人多好干活儿,通过队列利用多台机器来提高抓取速度,获取的数据如何存放,不是其根本要解决的痛点。
|
12
Codewj OP @zyy1245367562 戳到痛处了
|