之前也写过百度云盘爬虫,不过结果是来自 Google 自定义搜索结果,这次自己写了一个百度云盘爬虫程序, 2 天爬取了 60W 数据,其实能够能多,主要是百度有反爬虫机制,爬了几分钟后需要 5 分钟后再次爬取。
网址: http://pan.whatsoo.com
刚刚上线,许多功能还在更新。。。
已开源 github 地址
讨论交流请在github 中文社区 发帖
1
abelyao 2015-10-08 22:29:38 +08:00
竟然没人回复…
60W 数据太少啦,搜个 “苍井空” 都说没结果,怎么可能呢~ 试了一下深度搜索果然还是有的~ 那你就弄两个 IP 嘛,每个爬 5 分钟轮流~ 爬个 600W / 6000W 数据之后可以直接卖数据咯~ |
2
k1995 OP 前两天才开始爬,数据量确实有点少。以后弄个分布式爬虫,应该就开了
|
4
xiaoz 2015-10-09 08:48:52 +08:00
mark ,已收藏。
|
5
lycos 2015-10-09 09:33:45 +08:00
没有公开的 隐私设置的 可以爬到吗?
|
7
easychen 2015-10-11 14:22:39 +08:00 1
弱弱的问一句,从哪儿找百度的网盘的文件索引?直接用 site:pan.baidu.com 搜, 70 多页以后就不显示数据了。
|
8
fishlee 2015-10-11 15:01:52 +08:00 via Android
分布式爬虫不好控制
|
9
k1995 OP @easychen 肯定不是用 site:pan.baidu.com 直接分析百度云数据包,爬取好友列表
|
11
BuilderQiu 2015-10-12 00:34:36 +08:00 1
|
12
k1995 OP @BuilderQiu 嗯,我昨天在调试,手误,很快就改回来了
|
13
inmyfree 2015-10-12 11:47:28 +08:00
|
14
cdwyd 2015-10-14 09:25:21 +08:00
你好,怎么过的百度反爬虫机制,测试连续请求 50 次左右 就被屏蔽了
|
15
k1995 OP @cdwyd 1 ,降低爬去频率,比如 2 秒请求一次
2 ,屏蔽只是一段时间,几分钟后会自动恢复,所以可以继续爬取 |
16
k1995 OP whatsoo#com 已被墙,需要的朋友可以访问新域名 http://pan.ibying.com
|
17
sadara 2016-02-03 14:02:57 +08:00
开源吗?怎么授权
|
19
jabingu 2020-01-10 10:20:39 +08:00
新域名不行,打开是博彩网站
|