V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
akaayy
V2EX  ›  问与答

搜狗微信的反爬虫规则是怎么样的?我每 2 分钟抓取一次可以吗?

  •  
  •   akaayy · 2016-03-03 23:07:14 +08:00 via Android · 11598 次点击
    这是一个创建于 3174 天前的主题,其中的信息可能已经有所发展或是发生改变。
    或者每五分钟呢?(我说抓一次就是说抓一页)
    我要监控和抓的内容就是几个公众号,我可以尽量把频率隔的长一些

    如果被 ban 了,我是过多长时间才能再次正常使用?
    15 条回复    2016-03-29 15:29:45 +08:00
    gimp
        1
    gimp  
       2016-03-03 23:52:45 +08:00   ❤️ 1
    ban 了,你就开代理呗
    jessynt
        2
    jessynt  
       2016-03-03 23:56:13 +08:00   ❤️ 2
    尽可能模拟真实用户请求, 2 分钟一次当然没问题,如果被 Ban ,开代理 或者更换 IP ,网上很多免费代理的,不过要注意自己验证一下代理可用性
    shiny
        3
    shiny  
       2016-03-04 00:11:34 +08:00   ❤️ 1
    2014 年的时候分析过并绕过了搜狗的微信反爬虫规则,无需换 ip 就能大规模采集。
    只是采集来的微信内容很多有非法信息,被网警找过一次。
    akaayy
        4
    akaayy  
    OP
       2016-03-04 00:18:26 +08:00 via Android
    @shiny 怎么绕过的?分享一下思路啊


    @jessynt 真是用户访问多了都会出现验证码… -_-||
    raycloud
        5
    raycloud  
       2016-03-04 00:36:24 +08:00 via Android
    @akaayy 不知验证码被破次数多了会怎样?
    shiny
        6
    shiny  
       2016-03-04 00:39:50 +08:00   ❤️ 3
    @shiny 2014 年的策略现在可能过期了吧,我提供下当时的笔记吧:

    一、现象分析
    1. 如果没有完全模拟浏览器,会在访问数页之后进入 antispider 页面要求输入验证码
    2. 复制当前浏览器 cookies 后,可以访问更多页数,但一段时间后还是会触发验证码
    3. 清理该 cookies 后无需验证码又可以访问
    4. 此系统属于搜狗平台化运维体系 http://wenku.baidu.com/view/1fa63e39b90d6c85ec3ac6c5.html

    二、两处 cookies 注入点
    1. 访问首页注入 cookie SUID 标识了一次会话
    2. antispider 页面有两种类型,第一次触发时仅仅使用 javascript 注入 cookies SNUID ,表示此次访问的不是 spider ;第二次触发后显示验证码,但是只要重新访问首页获取新的 SUID ,就可以避免验证码识别或者更换 IP
    3. 自行拼接参数发送请求,可能导致嫌疑程度增加
    4. user-agent 含 spider/bot 的具有重大作案嫌疑,触发时直接返回 403

    三、反屏蔽机制——尽量模拟浏览器
    1. 涉及 cookies 注入的图片和网页都访问一遍
    2. 使用 javascript 注入的 cookies 全部抓取一遍并 setCookie
    3. 如果 antispider 页面( http://www.sogou.com/antispider/) 出现验证码,清理旧 cookies ,重新发起请求

    EOF.
    est
        7
    est  
       2016-03-04 09:36:22 +08:00
    搜狗收录不全的。我问过搜狗的哥们,他们也在绞尽脑汁想办法破解 微信 app
    814084764
        8
    814084764  
       2016-03-04 17:41:41 +08:00
    Mark 。。
    incompatible
        9
    incompatible  
       2016-03-06 14:13:03 +08:00 via iPhone
    @est 你这不是张口就讲胡话吗
    搜狗现在是腾讯的半个儿子,不需要做什么破解微信 APP 之类的事儿
    est
        10
    est  
       2016-03-06 16:27:25 +08:00
    @incompatible 你厉害。隔空判断真理。
    incompatible
        11
    incompatible  
       2016-03-06 21:16:53 +08:00
    @est 呵呵。你哥们在搜狗哪个部门啊? 我还真想去打听打听他们打算怎么破解微信 app 呢。
    est
        12
    est  
       2016-03-07 09:18:17 +08:00
    @incompatible 这样吧,拿事实说话,搜狗能检索 “招商银行” 这个公众号发的文章吗?
    incompatible
        13
    incompatible  
       2016-03-07 14:43:48 +08:00 via iPhone
    @est 搜不到。但是这并不能证明搜狗在做“绞尽脑汁去破解微信 app ”
    如果你真的有个哥们儿在搜狗且说过这样的话,你不妨透露一下他的部门。
    我作为搜狗前雇员,去打听一下“ 1 到底有没有这个部门 2 这个部门到底有没有在绞尽脑汁破解微信 app ”并不是什么难事儿。
    est
        14
    est  
       2016-03-07 15:20:10 +08:00
    @incompatible 好吧。我重新叙述一遍,“绞尽脑汁”是我夸张了。我所知道的情况是一位或者多位搜狗的开发者对逆向微信 app 很感兴趣而且做出了这方面尝试的努力。我进一步了解的细节是 weixin.sogou.com 并不能拿到全部的公众号数据所以他们产品需要另辟蹊径。用他们的话说,签合同入股不等于不使绊子,也不等于数据无保留全部开放。
    czzsean
        15
    czzsean  
       2016-03-29 15:29:45 +08:00
    发现传送门文章更新频率比搜狗微信的还及时。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1866 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 16:18 · PVG 00:18 · LAX 08:18 · JFK 11:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.