关于爬虫的疑问

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3400 天前的主题，其中的信息可能已经有所发展或是发生改变。

如果网页 A B C D E 是相护有超链接的那么可以很随意的爬到所有内容可是如果网页 Z 是一个单独的页面，要怎么才能抓得到呢？

（就像新搭建的网站，如果不主动提交，并且不做外链，搜索引擎是怎么找到的呢？）

网页

外链

搜索引擎

搭建

13 条回复 • 2016-10-13 10:12:30 +08:00

v9ox

2016 年 10 月 13 日

猜测: 爬虫会去遍历 DNS Zone?

binux

2016 年 10 月 13 日

如果知道 Z 存在，那么就能抓到
如果不知道 Z 存在，那么你怎么证明 Z 真实存在呢？

所以问题不在于怎么抓到，而在于怎么知道 Z 存在。

why1

2016 年 10 月 13 日 via Android

你猜

aeshfawre

2016 年 10 月 13 日

这不就是 google 在探索的问题么，他也在想办法解决这个问题。

ITOutsider

2016 年 10 月 13 日 via iPhone

robots.txt
不让抓的不抓
其他都抓

21grams

2016 年 10 月 13 日 via Android

所以就抓不到啊，谁告诉你一定能抓到 z 的

BMW

2016 年 10 月 13 日

想多了

tscat

2016 年 10 月 13 日 via iPhone

如果一个链接整个互联网上都没有人知道。那就认为没有这个链接。

qiayue

PRO

2016 年 10 月 13 日

有的网站，上线几年了，都在搜索引擎搜索不到，因为作者只是写给自己看，除了浏览器和作者等，没人知道这个网站的存在

pi1ot

2016 年 10 月 13 日 via iPhone

360 有办法抓到

choury

2016 年 10 月 13 日 via Android

@pi1ot 要有人用 360 浏览器才行

cyang

PRO

2016 年 10 月 13 日

如果找到了，你该想一下是不是自己的浏览器或是电脑中的其他软件把自己的隐私泄露了。

pi1ot

2016 年 10 月 13 日

@choury 用了 360 各个产品都可以吧