V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
aragakiiyui
V2EX  ›  Python

为什么使用了代理 ip 依然被封?

  •  
  •   aragakiiyui · 2017-10-10 11:57:55 +08:00 · 12794 次点击
    这是一个创建于 2599 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在抓一个站,抓多会被封 ip,然后我用了代理 ip 去抓,每次请求都换一个 ip。但是依然被封了!报 429 这个错误,不知道原因是啥?

    30 条回复    2018-02-03 09:38:24 +08:00
    yunkchen
        1
    yunkchen  
       2017-10-10 12:00:40 +08:00
    代理 IP 确定是有效的么?
    Soar360
        2
    Soar360  
       2017-10-10 12:01:12 +08:00
    Cookie ?
    aragakiiyui
        3
    aragakiiyui  
    OP
       2017-10-10 12:02:10 +08:00
    @yunkchen 确定有效哦,都是过滤好了的。
    mrzys
        4
    mrzys  
       2017-10-10 12:53:41 +08:00 via Android
    cookie,还有代理是高匿的吗?
    aragakiiyui
        5
    aragakiiyui  
    OP
       2017-10-10 12:54:47 +08:00
    @Soar360 @mrzys 好像不是高匿的,cookie 要怎么处理?
    won
        6
    won  
       2017-10-10 12:56:19 +08:00   ❤️ 1
    现在黑名单规则通常用 IP+MAC 两管齐下
    aragakiiyui
        7
    aragakiiyui  
    OP
       2017-10-10 12:57:10 +08:00
    @won 那这个有什么办法处理吗?!
    won
        8
    won  
       2017-10-10 12:58:47 +08:00
    USB 网卡+代理 IP
    LGA1150
        9
    LGA1150  
       2017-10-10 13:06:56 +08:00 via Android   ❤️ 1
    @won 对方服务器只能看到它网关的 MAC 地址
    15399905591
        10
    15399905591  
       2017-10-10 15:15:39 +08:00
    你用的代理是什么类型的?是高匿名的吗?如果不是高匿的,对方是可以获取到你的本机 IP 的
    julyclyde
        11
    julyclyde  
       2017-10-10 15:35:31 +08:00   ❤️ 3
    @won 为啥总有人连基本原理都不懂就理直气壮的啊
    Soar360
        12
    Soar360  
       2017-10-10 16:02:49 +08:00   ❤️ 5
    Cookie 当然是每换一次 IP 清理一下咯。
    高匿代理附上:
    https://proxy.coderbusy.com/zh-cn/classical/anonymous-type/highanonymous.aspx?from=v2ex
    SoulGem
        13
    SoulGem  
       2017-10-10 16:43:19 +08:00
    随机高匿+随机 UA
    另外检查好 Request 是否正确,可能会有别的防爬处理
    aragakiiyui
        14
    aragakiiyui  
    OP
       2017-10-10 18:08:34 +08:00
    @Soar360 3q,下午把抓代理代码的重写了一下,加入了高匿和透明的分类,明天再试试看。
    aragakiiyui
        15
    aragakiiyui  
    OP
       2017-10-10 18:18:36 +08:00
    @SoulGem 这个站就是会限制访问次数,我换了高匿的 ip 还是被发现了原始 ip....
    afeicool
        16
    afeicool  
       2017-10-10 18:25:19 +08:00
    @Soar360 我去,屌爆,怎么来的?
    tbag781623489
        17
    tbag781623489  
       2017-10-10 18:58:32 +08:00 via iPhone
    @Soar360 刚需啊,thx
    ji4ozhu
        18
    ji4ozhu  
       2017-10-10 19:00:19 +08:00
    百度搜 掘金网 就是 高匿的
    mansur
        19
    mansur  
       2017-10-10 19:09:09 +08:00
    你确定 ip 有效吗?你访问 http://ip.chinaz.com/ 看下放回的 ip 地址是代理的地址还是你服务器的地址
    ospider
        20
    ospider  
       2017-10-10 19:50:36 +08:00
    @Soar360 请问 post 代理是什么意思, 支持 post 么, 还有不支持 post 的代理?
    schema
        21
    schema  
       2017-10-11 08:07:24 +08:00
    @won 是这样吗,怪不得我用高匿爬豆瓣会被封,一直想不通
    schema
        22
    schema  
       2017-10-11 08:08:23 +08:00
    @Soar360 给的链接后面加 ?from=v2ex 是为了做啥?
    cat9life
        23
    cat9life  
       2017-10-11 10:35:22 +08:00   ❤️ 1
    @schema 为了统计 站长肯定会好奇能带来多少访问量
    hugedata
        24
    hugedata  
       2017-10-11 10:36:55 +08:00
    @Soar360 我擦,冰爷。。。
    schema
        25
    schema  
       2017-10-11 10:42:16 +08:00 via Android
    @hugedata 这是哪位大神?为啥真的惊讶 (⊙o⊙)
    Soar360
        26
    Soar360  
       2017-10-11 11:50:29 +08:00
    @ospider 嗯,有部分代理不支持 POST 的。
    Soar360
        27
    Soar360  
       2017-10-11 11:50:55 +08:00
    @afeicool 扫描、爬取 ext。。
    aragakiiyui
        28
    aragakiiyui  
    OP
       2017-10-11 14:16:31 +08:00
    @Soar360 @15399905591 @mansur 我用的高匿代理,然后清了 cookie,这个站还是 429 挡我,并且把我原始的 ip 返回给我了....
    yongpomat
        29
    yongpomat  
       2017-10-11 16:47:16 +08:00
    有个软件专门干这个的,15 一个月,我搞批量注册用了好久了。非 vpn。ss。。
    sw10
        30
    sw10  
       2018-02-03 09:38:24 +08:00
    主要是两点:
    1. 使用代理是高匿名的吗?这个可以通过 httpbin 查询到。
    2. 对手网站是如何标识用户的? cookie ? token ?

    #28 我用的高匿代理,然后清了 cookie,这个站还是 429 挡我,并且把我原始的 ip 返回给我了....
    既然能知道你的原始 ip,那您使用的应该就不是高匿名代理。另外,也可能对方在其他处记录了您的原始 IP。

    最后,我们提供代理 IP 服务,可以了解下。
    /t/424630
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1015 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 20:03 · PVG 04:03 · LAX 12:03 · JFK 15:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.