V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
terryxuwen
V2EX  ›  微博

新浪微博反爬 封掉 huginn 的问题

  •  
  •   terryxuwen · 2021-10-28 21:26:44 +08:00 · 2058 次点击
    这是一个创建于 1120 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 huginn 爬取新浪微博,原来好好的,快多半年后,突然发现爬取不到任何东西。检查发现竟然是被新浪微博封了,但是奇怪的是,就 huginn 不行,而普通的下载工具,甚至 autoit 等脚本,随随便便就能把新浪微博爬取下来,太奇怪了。比如下面的链接: https://s.weibo.com/weibo?q=%E4%B8%AD%E5%9B%BD%E8%87%AA%E5%BC%BA&typeall=1&suball=1×cope=custom:2021-08-01:&Refer=g&scope=ori 用 huginn 不行,其他的下载工具随随便便都可以。 换了其他地方的机器,电脑和 ip 不同,huginn 照样无法正常爬取。 huginn 里面设置了 user-agent 也不行,怪了,huginn 有什么特征能够被识别吗

    6 条回复    2022-11-23 14:55:17 +08:00
    terryxuwen
        1
    terryxuwen  
    OP
       2021-10-28 21:29:07 +08:00
    补充一下,我是不登录爬取,不存在用户名被封的情况
    ch2
        2
    ch2  
       2021-10-28 22:19:55 +08:00
    @terryxuwen #1 其实你登录一个小号,即使被封了也反而比不登录权限要高
    malagebidi
        3
    malagebidi  
       2021-10-28 22:49:44 +08:00
    试了下,Phantom Js Cloud Agent 渲染不出微博的页面了
    terryxuwen
        4
    terryxuwen  
    OP
       2021-10-29 16:30:04 +08:00
    @ch2 匿名能看到微博的搜索结果呀。 现在情况是不知道为什么 普通下载脚本能下到内容页,而 huginn 不行,唉
    terryxuwen
        5
    terryxuwen  
    OP
       2021-10-29 16:30:40 +08:00
    @malagebidi 你试试普通的脚本下载,应该能下载看到网页内容。
    foxben
        6
    foxben  
       2022-11-23 14:55:17 +08:00 via Android
    @malagebidi 我发现很多网站 phantomjs 很多网站都渲染不出
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2722 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 15:26 · PVG 23:26 · LAX 07:26 · JFK 10:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.