V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
coolcatha
V2EX  ›  Google

一直挺好奇的, Google 是如何抓取隐藏内容的?

  •  
  •   coolcatha · 2021-02-18 11:43:16 +08:00 · 3886 次点击
    这是一个创建于 1366 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有些论坛的内容是需要回复,或者支付一定的论坛的什么积分才能看到。但是在 Google 直接搜索这些隐藏的内容,发现 Google 已经收录了隐藏的内容,很好奇 Google 是怎么做到的。

    难道是这些论坛框架有某些漏洞,通过其他入口可以直接查看隐藏内容吗
    21 条回复    2021-02-18 23:21:37 +08:00
    itskingname
        1
    itskingname  
       2021-02-18 11:46:48 +08:00
    有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙,
    AngryPanda
        2
    AngryPanda  
       2021-02-18 11:48:23 +08:00   ❤️ 2
    不负责任猜想:有权限的用户使用了 chrome 浏览器
    littlelooloo
        3
    littlelooloo  
       2021-02-18 11:54:29 +08:00 via Android   ❤️ 1
    你看到的是前段,google 的蜘蛛抓得是后端
    shuax
        4
    shuax  
       2021-02-18 11:56:56 +08:00
    有可能是还没设置权限就被抓了。
    docx
        5
    docx  
       2021-02-18 11:57:22 +08:00
    已知的两种可能:
    1. 在源码里,假隐藏,打开 F12 找找
    2. 针对 Google Bot 开放检索权限
    docx
        6
    docx  
       2021-02-18 11:57:56 +08:00
    补充一条
    3. 还没设置权限时已被抓取
    superrichman
        7
    superrichman  
       2021-02-18 11:58:20 +08:00 via iPhone
    可能做了 seo 优化,也可能就是漏洞
    westoy
        8
    westoy  
       2021-02-18 11:59:09 +08:00
    网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据
    ruixue
        9
    ruixue  
       2021-02-18 12:14:11 +08:00   ❤️ 1
    大概率是针对 Google 做了 SEO,允许 Googlebot 爬
    很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅
    甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取
    coolcatha
        10
    coolcatha  
    OP
       2021-02-18 12:20:33 +08:00
    @itskingname
    @dzyou2007

    我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。


    @ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。
    docx
        11
    docx  
       2021-02-18 12:30:42 +08:00
    User-Agent 携带了 Google Bot 信息,判断很容易
    @coolcatha
    coolcatha
        12
    coolcatha  
    OP
       2021-02-18 12:37:18 +08:00
    @dzyou2007 这个太容易伪造了,除了 Google bot 的 IP 其他的都能伪造呀
    silymore
        13
    silymore  
       2021-02-18 12:40:20 +08:00 via iPhone
    @AngryPanda 记得 360 浏览器这么干过
    coolcatha
        14
    coolcatha  
    OP
       2021-02-18 12:41:15 +08:00
    @AngryPanda
    @silymore

    Google 不至于吧,早就大新闻了
    coolcatha
        16
    coolcatha  
    OP
       2021-02-18 12:50:33 +08:00
    @morethansean 非常感谢。如果是这样,我也没办法去验证了
    ruixue
        17
    ruixue  
       2021-02-18 13:06:41 +08:00
    @coolcatha 通过 ip 段来判断是不是来自 Googlebot 的访问请求

    很多 GeoDNS 都用了这些 ip 库,可以针对各个搜索引擎的 Bot 返回单独的解析结果
    ESP
        19
    ESP  
       2021-02-18 15:39:54 +08:00
    这里还真涉及到 discuz 的两个漏洞
    coolcatha
        20
    coolcatha  
    OP
       2021-02-18 17:04:20 +08:00 via iPhone
    @ESP 能详细说说吗?或者给个关键词哈
    Soar360
        21
    Soar360  
       2021-02-18 23:21:37 +08:00
    判断 IP 是不是谷歌爬虫,可以看看 IP 的 rDNS 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2765 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 11:59 · PVG 19:59 · LAX 03:59 · JFK 06:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.