1
jason52 2014 年 11 月 11 日
深度优先?广度优先?
布隆过滤器? 题目没说清楚,没法下手啊 |
2
blond OP @jason52 哦,不好意思,是广度优先,在爬虫爬取url的过程中自动发现现有url库中没有的url,但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢
|
3
Melodic 2014 年 11 月 12 日
另设path关键字,域名+path分层级比对,没有就加入?
|