V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nujabse
V2EX  ›  Node.js

网站是如何识别像 Puppeteer 这样采用 chrome headless 模式的 node js 爬虫的?

  •  
  •   nujabse · 2018-04-19 20:53:31 +08:00 · 5979 次点击
    这是一个创建于 2410 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近想用 Puppeteer 爬取 这个网站 的数据,发现爬取几个数据之后就很快被识别为机器人,弹出 recaptcha 的验证,已设置 UA 和 Cookie,模拟浏览器人工操作还是被封禁。这个网站是如何识别检测 puppeteer 爬虫的?

    5 条回复    2018-04-20 13:58:32 +08:00
    gzlock
        1
    gzlock  
       2018-04-19 21:24:58 +08:00
    瓶颈在 ip,上代理池
    miyuki
        2
    miyuki  
       2018-04-19 21:35:24 +08:00
    可能是 IP 频率?
    soli
        3
    soli  
       2018-04-20 05:33:07 +08:00
    道高一尺,魔高一丈。

    复杂一点的,可以分析用户鼠标、键盘等动作。
    yamedie
        4
    yamedie  
       2018-04-20 07:14:36 +08:00 via Android
    操作频率太快了,设置点间隔
    Sparetire
        5
    Sparetire  
       2018-04-20 13:58:32 +08:00
    蛮多的, 具体可以参考这两个
    https://juejin.im/post/5a22af716fb9a045132a825c
    https://cnodejs.org/topic/59c3352ee7d9a031127eadac
    不过有些可能过时了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2811 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:34 · PVG 17:34 · LAX 01:34 · JFK 04:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.