V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
supman
V2EX  ›  问与答

关于爬虫的疑问

  •  
  •   supman · 2016-10-13 06:31:56 +08:00 · 2090 次点击
    这是一个创建于 2957 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如果网页 A B C D E 是相护有超链接的 那么可以很随意的爬到所有内容 可是如果 网页 Z 是一个单独的页面, 要怎么才能抓得到呢?

    (就像新搭建的网站,如果不主动提交,并且不做外链,搜索引擎是怎么找到的呢?)
    13 条回复    2016-10-13 10:12:30 +08:00
    v9ox
        1
    v9ox  
       2016-10-13 06:49:29 +08:00
    猜测: 爬虫会去遍历 DNS Zone?
    binux
        2
    binux  
       2016-10-13 06:57:13 +08:00   ❤️ 1
    如果知道 Z 存在,那么就能抓到
    如果不知道 Z 存在,那么你怎么证明 Z 真实存在呢?

    所以问题不在于怎么抓到,而在于怎么知道 Z 存在。
    why1
        3
    why1  
       2016-10-13 07:18:29 +08:00 via Android
    你猜
    aeshfawre
        4
    aeshfawre  
       2016-10-13 07:28:16 +08:00
    这不就是 google 在探索的问题么,他也在想办法解决这个问题。
    ITOutsider
        5
    ITOutsider  
       2016-10-13 07:37:29 +08:00 via iPhone
    robots.txt
    不让抓的不抓
    其他都抓
    21grams
        6
    21grams  
       2016-10-13 07:42:42 +08:00 via Android
    所以就抓不到啊,谁告诉你一定能抓到 z 的
    BMW
        7
    BMW  
       2016-10-13 08:11:40 +08:00
    想多了
    tscat
        8
    tscat  
       2016-10-13 08:48:26 +08:00 via iPhone
    如果一个链接整个互联网上都没有人知道。那就认为没有这个链接。
    qiayue
        9
    qiayue  
       2016-10-13 08:48:50 +08:00
    有的网站,上线几年了,都在搜索引擎搜索不到,因为作者只是写给自己看,除了浏览器和作者等,没人知道这个网站的存在
    pi1ot
        10
    pi1ot  
       2016-10-13 08:51:58 +08:00 via iPhone
    360 有办法抓到
    choury
        11
    choury  
       2016-10-13 08:56:24 +08:00 via Android
    @pi1ot 要有人用 360 浏览器才行
    cyang
        12
    cyang  
       2016-10-13 09:43:14 +08:00
    如果找到了,你该想一下是不是自己的浏览器或是电脑中的其他软件把自己的隐私泄露了。
    pi1ot
        13
    pi1ot  
       2016-10-13 10:12:30 +08:00
    @choury 用了 360 各个产品都可以吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2862 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 14:36 · PVG 22:36 · LAX 06:36 · JFK 09:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.