最近一直在用 http://kaopu.so/ 看样子索引了很大量的内容,话说百度本身不对访问 IP 做频次控制么?
1
lizheming 2015 年 10 月 11 日
看过之前一个爬虫的帖子,说是 5 分钟一次,做好频率控制多 IP 轮流就好了吧…
|
2
d7101120120 2015 年 10 月 11 日
嘘小声点~~~~
|
3
pathletboy 2015 年 10 月 11 日
频次控制不大好做的,现在网络很多都内网了,出口都是一个 IP 。
|
4
gzlock 2015 年 10 月 11 日 via Android
也没法证明是用同一 IP 爬的啊
|
7
kslr 2015 年 10 月 11 日
比如 Coding 支持运行程序的,可以做个 Proxy ,类似的还很多,也很稳定。
|
8
lizheming 2015 年 10 月 11 日
@easychen https://www.v2ex.com/t/226413 刚才回顾了下这个帖子,他上面说的是 30w/天,如果是有 3 -5 个 IP 的话也就半个月就能爬到千万数量级了吧....
|
10
wbingeek 2015 年 10 月 11 日
最近用的是这个 http://www.bdybbs.com/
|
11
cevincheung 2015 年 10 月 11 日 via Android
代理 ip 资源十几块一大把还是高质量高出口带宽的
|
12
easychen OP @cevincheung 求个链接看看~
|
13
cdwyd 2015 年 10 月 11 日 via Android
@cevincheung
求地址 |
14
zdyx123 2015 年 10 月 11 日
@cevincheung 同求一个地址
|
16
Coxxs 2015 年 10 月 11 日
曾经抓过一年左右,索引过一亿+文件,每秒都在抓,用 1 、 2 个 IP 没被封。 https://so.cqp.cc/
|
18
Coxxs 2015 年 10 月 11 日
@easychen 以前每个文件有“相关文件”,可以通过相关文件抓,但是现在没有了。后来用的方法就是获取用户 ID ( uk ),然后遍历用户分享的文件。
|
21
cevincheung 2015 年 10 月 11 日 |
22
fighter2011 2015 年 10 月 11 日
这种不会被 ban 吧,有很多都是磁力搜索的啊。
|
23
easychen OP @cevincheung thanks :)
|
24
gamecreating 2015 年 10 月 11 日 |
25
Pepsigold 2015 年 10 月 12 日 via Android
@gamecreating 怎么进去都是代码了?
|
26
starAsh 2015 年 10 月 12 日
直接 google 搜 xxx site:pan.baidu.com 即可,然后对搜索出来的结果处理就行了
|
27
Roope 2015 年 10 月 12 日
@gamecreating 这个好啊。
|
30
3023369823 2016 年 8 月 22 日
失效链接怎么判断,这才是关键,求解释?@dotmark @Coxxs @Pepsigold @cdwyd @d7101120120 @dotmark @easychen @gamecreating @fighter2011
|