V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  resolvewang  ›  全部回复第 4 页 / 共 7 页
回复总数  131
1  2  3  4  5  6  7  
https://github.com/SpiderClub/haipproxy/releases

这里下载

同时也要注意 IP 池有个预热的过程,大概在半小时到一小时之间,因为刚启动是不可能马上就有已校验的代理 IP 的
@Betsy #60 master 分支更新了一些代码,不向后兼容,目前文档由于精力原因还没更新,你可以下载 release 当中的 0.1 版本进行测试  2.你可以使用 redisdesktopmanager 来查看已抓取到的代理,肯定是没问题的
2018 年 3 月 14 日
回复了 awolfly9 创建的主题 酷工作 今日头条六周年了~~~
实习能否内推呢?
附上 github 地址: https://github.com/ResolveWang
@jitongxi #55 感谢提醒。老外也有用的。。。当初开源的一个原因是感觉这种验证和筛选策略很有意思,所以就 public 了
@xiaodaoi #53 那快用用吧,期待宝贵的用户反馈
@gamecreating 感谢支持
@Soar360 #47 数据源墙内墙外都有很多,只不过需要体力和一些方法去搜集而已
@Soar360 #48 关系不大,就算 coderbusy 数据源全有问题,其它也够用了
@BadReese #45 客气。好用给个 star 或者宣传一下就好了
@BadReese #43 github 上已经回复了。还望耐心阅读开发者文档
@liuxu #41 好的,欢迎反馈意见
@liuxu #39 用了吗?效果咋样
@freedot #37 我们做技术的还是得用道德来约束自己
@tcpdump 通过客户端获取。具体来讲就是 py_cli.py 文件的 ProxyFetcher 类,它有个方法叫做 get_proxy(),这是输出当前的一个可用代理(由策略决定)。还有一个 get_proxies()方法,这个是输出代理列表,两者是有一些差别的。

另外,如果有兴趣和使用需求的话,还望花几分钟读一下  examples/zhihu  的使用示例和 docs 中的文档,因为 haipproxy 提供代理的思路和目前开源出来的项目用 web api 提供的代理列表的思路有一丢丢差别。

欢迎不懂再问哈
@CrazyMelody 感谢捧场
@WildCat 感谢反馈。由于系统组件本身就比较多,包括了代理 IP 抓取程序和校验器,抓取程序定时任务调度工具和校验器定时任务调度工具,这四个命令主要就是启动这四货的。可以在一个 shell 脚本中启动它们。可以参考 [run.sh]( https://github.com/SpiderClub/haipproxy/blob/master/run.sh)。更方便的模式我还没想出来,你要有好的意见可以提一下
@Cyron 哥们你真有才。不过这个名字应该是这么读,high available ip proxy,就是帖子上说的高可用代理。都是正经人,也得取个正儿八经的名字
哈哈哈,可以试试楼上的同学@ xuxueli 的爬虫框架和 haipproxy 搭配的使用效果
@chenqh #25 资历尚浅,以后有机会一定会试试
@exoticknight #23 感动,笔芯
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2098 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 07:46 · PVG 15:46 · LAX 23:46 · JFK 02:46
♥ Do have faith in what you're doing.