1
seven2016 2017-10-24 22:23:23 +08:00
|
2
fiht 2017-10-24 22:45:37 +08:00
1. 代理 IP 直接购买就好,五块钱的代理够你爬很多很多很多数据了。判断 IP 是否可用,择优排序,应该属于另外一个系统做的事情。另外一个系统负责对代理池中的 IP 进行存活检测和速度测试打分。你去 gayhub 搜一下代理 IP 有现成的轮子。
2. 请 Google 之。 |
3
mon3 2017-10-24 23:05:35 +08:00
|
4
hcnhcn012 2017-10-24 23:16:53 +08:00 via iPhone
Scrapoxy,这是官方推荐的框架
|
5
saximi OP |
7
hcnhcn012 2017-10-25 00:28:37 +08:00 via iPhone
@saximi 当然可以同时用啊,这个只是一个 js 写的代理,和 scrapy 没有关系的,但是和爬虫一起用就可以达到换 ip 或者是 user-agent 等等的目的了
官方防 ban 建议里提到了 https://docs.scrapy.org/en/latest/topics/practices.html#avoiding-getting-banned http://scrapoxy.io/ |
8
sunwei0325 2017-10-25 06:36:34 +08:00
crawlera, 国内也有阿布云之类的每次请求都换一个 ip, 自己爬的免费代理有效性很差, 也可以自己搭几个拨号服务器充当代理, 自己控制拨号手动换 ip
|
9
aaronzjw 2017-10-25 09:36:38 +08:00
|
10
ZiLong 2017-10-25 09:48:32 +08:00
@sunwei0325 老哥,拨号服务器这个怎么搭,有推荐教材么
|
11
sunwei0325 2017-10-25 10:47:36 +08:00
|
16
ZiLong 2017-10-26 10:20:18 +08:00
@sunwei0325 感谢,老哥稳!
|