1
simonliu2018 2018-09-17 10:38:23 +08:00
>有 1000+以上的网站需要爬,并且经常要增加减少
把这些网址存在数据库里,定期重启 spider 来加载到 start requests 里 >有部分网站是通用类型,部分需要自写 xpath 提取 自定义几个 middleware 区分不同的业务;也可以写不同的 spider >同时要启动多个 spider 我之前是写一个小工具来生成多个 spider 启动脚本,用 daemontools 管理这些脚本 |
2
raysmond 2018-09-17 12:16:22 +08:00
scrapy-redis 了解一下,spider 常驻了,start_urls 放在了 redis 里,需要抓取时塞进去
|
3
lixuda OP @simonliu2018 好的,谢谢
|
5
lixuda OP @simonliu2018 感谢,另外通用型的网站 LinkExtractor 要增加,其他都是一样
|