之前用过很多开源出来的工具,效果都不是很理想,于是就自己开发了这个工具。他功能很简单,抓代理并且提供 api 给爬虫或者其他需要 http 代理的软件用。
如果用的顺手,欢迎 star 一下~
1
mythjava 2019-12-02 16:10:03 +08:00
好东西
|
2
xjoker 2019-12-03 09:52:32 +08:00
好像没看见配置检测网址的功能
|
3
endoffight OP |
4
xjoker 2019-12-03 12:59:26 +08:00
|
5
endoffight OP @xjoker
这个问题其实之前考虑过,因为池子可能不是给某一个爬虫使用,所以当时考虑到创建多个池子,然后针对每一个池配置一个检测代理是否可用的规则,所以我在开发的时候预留了 master 和 worker 模式,master 负责爬,每个 work 会维护自己的池子,m 会把采集到的代理分发到所有 w 中。 但是检测一个代理 IP 是否可用,仅仅靠 http code==200 应该是不够的,遇到 API 类型的 url,可能要解析一下,然后判断某个字段是否正确;或者 html 中出现了某个关键字;还可能有更复杂的判断模式,当时想很多东西,撸代码的时候觉得还是先把基本功能实现了再说。 综上,目前这个项目还是属于初级阶段,代理池时作为一个中立的池子。而你说的这个 feature 等有了 M/W 模式后就很好实现了。现阶段想满足你的需求修改 proxy 的 TestProxy 方法为你自己的逻辑即可。 |