最近想爬一个网站, url 中只有 8 位决定了网页的内容。
这 8 位为小写字母和数字的混合。数学上算有 36^8 种可能性,大约是 282 万亿种组合。
每秒爬 20 次,也要一千多年才能爬完。。。。。
怎么爬??
1
abelyao 2016-01-18 15:33:25 +08:00 via iPhone
找出列表来爬… 哪有自己猜测的…
|
2
zhujinliang 2016-01-18 15:37:06 +08:00
分布式爬,有 1000 个节点的话就只需 1 年多了哦耶
|
3
function007 2016-01-18 15:41:52 +08:00
第一次见着爬虫靠穷举的
|
4
ethego 2016-01-18 15:44:08 +08:00
当然是爬超链接了,穷举爬到何年何月去
|
6
weer0026 2016-01-18 15:44:57 +08:00
= = 像一楼说的你先找入口,用入口处获取的地址去爬啊。
|
8
rock_cloud 2016-01-18 16:15:41 +08:00
我一学长,某次做实验需要数据,懒得写爬虫,然后把人家数据库黑了。。。
话说反爬虫的方案中如果给爬虫返回错误的数据有何利弊呢?一直想这么做。。。 |
11
abelyao 2016-01-18 16:34:37 +08:00
@rock_cloud 忘了以前在哪里看到过 amazon 的网站就是这样对爬虫的,让你正常爬,但爬多了后面的数据全是假的,包括价格什么的……
|
12
Tink 2016-01-18 16:42:13 +08:00
有可能楼主并没有找到 list
|
13
814084764 OP |
14
abelyao 2016-01-18 16:48:45 +08:00
@814084764 那你可以看看这些 url 是不是某些有规律的数字、然后进行特定编码的(类似 base64 那样),或者你可以网上搜一下 微博、优酷 他们的 URL 编码方式,如果是完全无规律的,那就慢慢爬吧… 或者放出来大家帮你找 list 入口……
|
15
rock_cloud 2016-01-18 16:48:49 +08:00
@est 你这样不会把搜索引擎的爬虫封了么?
|
16
rock_cloud 2016-01-18 16:50:12 +08:00
@814084764 列表肯定是有的,或者是间接地列表。
如给没有一个逻辑上的列表,那么这个链接相当于没有入口,那么这个页面永远都不会被访问到。 |
17
est 2016-01-18 16:54:09 +08:00
@rock_cloud 搜索引擎 ip 是固定的。白名单即可。 :)
|
21
est 2016-01-18 22:34:38 +08:00
|