V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
whwq2012
V2EX  ›  Google

谷歌的爬虫是怎么爬取到那些孤立的网站的

  •  
  •   whwq2012 · 2016-11-17 19:44:50 +08:00 · 3554 次点击
    这是一个创建于 2920 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我建了两个网站,没有任何被任何博客添加友链,没有在任何网站上留下过 url ,但是我都在这两个服务器里的 access.log 里看到了谷歌爬虫(虽然我设置了 robots.txt 不让爬取)。难不成是靠遍历 ip 地址吗?

    第 1 条附言  ·  2016-11-17 22:06:25 +08:00
    顺便再多问个问题,我在阿里云备了案,但是把域名解析到了国外一个搭建了 sspanel 的服务器,这不要紧吧?
    11 条回复    2016-12-15 00:09:24 +08:00
    xzem
        1
    xzem  
       2016-11-17 20:08:41 +08:00
    比如说 chrome
    DesignerSkyline
        2
    DesignerSkyline  
       2016-11-17 20:13:21 +08:00 via iPad
    Google chrome 的安全检测服务可能会导致这个现象
    yankebupt
        3
    yankebupt  
       2016-11-17 20:16:25 +08:00 via Android
    爬的时候不遵循 robots.txt 的也有可能是伪造成谷歌爬虫的其他爬虫,比如安全机构
    yushiro
        4
    yushiro  
       2016-11-17 20:18:53 +08:00 via iPhone
    网站有域名,根据域名注册商的列表爬。
    whwq2012
        5
    whwq2012  
    OP
       2016-11-17 22:05:02 +08:00
    @DesignerSkyline 什么意思?
    whwq2012
        6
    whwq2012  
    OP
       2016-11-17 22:07:19 +08:00
    @yushiro 这个列表域名注册商可以随便就给别人吗?
    DesignerSkyline
        7
    DesignerSkyline  
       2016-11-17 22:13:38 +08:00
    @whwq2012 safebrowsing probes
    yushiro
        8
    yushiro  
       2016-11-17 22:13:58 +08:00
    @whwq2012 你注册域名的时候是不是要查询域名是否被注册? 这都是公开的
    whwq2012
        9
    whwq2012  
    OP
       2016-11-18 19:11:32 +08:00
    @yushiro 虽然是这样的,但是也不会给整个数据库吧
    julyclyde
        10
    julyclyde  
       2016-11-18 21:46:06 +08:00
    @whwq2012 跟给数据库有啥区别?让它挨个试还影响注册商性能呢,比如直接给数据库
    flynaj
        11
    flynaj  
       2016-12-15 00:09:24 +08:00 via Android
    看 ip 地址,如果不是 google 的服务器就是伪造的,可能是扫描
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   984 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:53 · PVG 05:53 · LAX 13:53 · JFK 16:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.