V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
spotsung
V2EX  ›  问与答

py 去爬对象数据,总是被封 ip,爬着爬着爬不动。是不是只能买 ip 代理数据库?太贵了

  •  
  •   spotsung · 2022-05-30 11:08:08 +08:00 · 1172 次点击
    这是一个创建于 906 天前的主题,其中的信息可能已经有所发展或是发生改变。

    py 去爬对象数据,总是被封 ip ,爬着爬着爬不动。是不是只能买 ip 代理数据库?太贵了。还有别的方案吗?麻烦指点讨论

    5 条回复    2022-05-30 18:28:35 +08:00
    wuwuta170
        1
    wuwuta170  
       2022-05-30 12:57:15 +08:00 via iPhone
    间隔地爬
    ila
        2
    ila  
       2022-05-30 13:09:31 +08:00 via Android
    用 selenium 测试下,看代码问题还是时间段单 IP 请求次数问题.
    第二种情况,买个鸡场服务,在起飞和本地来回切换
    keepeye
        3
    keepeye  
       2022-05-30 13:12:30 +08:00
    测一下一个 ip 能用多久,我知道的动态代理一般一个 ip 有效时常 3-5 分钟,算下来也不是很贵
    sadfQED2
        4
    sadfQED2  
       2022-05-30 18:26:58 +08:00 via Android
    尝试在这几个 http 头中瞎 jb 随机 ip 地址

    REMOTE_ADDR
    HTTP_VIA
    HTTP_X_FORWARDED_FOR
    X-Real-IP
    X_FORWARDED_FOR

    某些分不清这些变量区别的程序员,随便在网上 copy 了一份“获取用户真实 ip“的代码。那你瞎 jb 随机这几个头给他就然后 ip 检测了
    sadfQED2
        5
    sadfQED2  
       2022-05-30 18:28:35 +08:00 via Android
    @sadfQED2 修正:那你瞎 jb 随机这几个头给他就绕过 ip 检测了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1512 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:10 · PVG 01:10 · LAX 09:10 · JFK 12:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.