V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
205.87D
514.36D
V2EX  ›  V2EX

致最近在用十多台机器通过 python-requests/2.3.0 CPython/3.3.5 Linux/2.6.32-431.29.2.el6.x86_64 爬 V2EX 的某位同学

  •  
  •   Livid ·
    PRO
    · 2014 年 12 月 10 日 · 8031 次点击
    这是一个创建于 4057 天前的主题,其中的信息可能已经有所发展或是发生改变。
    抱歉我们现在用的机器还不够高大上,你的这种爬法,确实会影响到目前我们网站的访问质量。

    所以,只能把你的 10 几个 IP 全部封了。

    今天早些时候,我们还封了 YisouSpider 的另外 10 几个 IP。

    我可以理解你们想要从这里开采资源的心情,但是就算是开采,请用一些可持续的方式。不可持续的方式,是在浪费所有人的时间和你的资源。

    36 条回复    2014-12-17 23:28:44 +08:00
    abelyao
        1
    abelyao  
       2014 年 12 月 10 日
    抵制一切爬站采集的行为!
    我愿意在 v2ex 发帖交流,但我不愿意我发表的内容,被复制到一个我不知道的网站去!
    Livid
        2
    Livid  
    MOD
    OP
    PRO
       2014 年 12 月 10 日
    @abelyao 我们的回复一直在被很多网站用各种方式搬运。

    不过,这些用偷懒的方式做起来的东西,一般都无法持续。

    Karma 上的瑕疵,会让任何一件事情都很难持续。
    tinyhill
        3
    tinyhill  
       2014 年 12 月 10 日
    被爬了说明有价值,只能这么安慰自己。
    whicily
        4
    whicily  
       2014 年 12 月 10 日
    @Livid 请问一下 v2ex 是如何 block ip 的,iptables 么?
    kurtrossel
        5
    kurtrossel  
       2014 年 12 月 10 日
    爬到数据也不会珍惜的,真能发掘出更大价值也算,各种滥用
    Devin
        6
    Devin  
       2014 年 12 月 10 日
    @Livid good job!
    abelyao
        7
    abelyao  
       2014 年 12 月 10 日
    @Livid 真蛋疼,这些站就该倒闭光了才好。
    之前在自己的网站 或 cnblogs 写过几篇热门博客,也都 “被发表” 到一些大论坛大网站去,有些好点的在角落里留个署名,大多数什么来源都没标注。
    kmvan
        8
    kmvan  
       2014 年 12 月 10 日 via Android
    這并发略吊…

    话说Karma是…?
    jiang42
        9
    jiang42  
       2014 年 12 月 10 日
    就是说之前v2ex不稳定是爬虫的原因?
    mortal
        10
    mortal  
       2014 年 12 月 10 日
    @kmvan 业?
    herozzm
        11
    herozzm  
       2014 年 12 月 10 日
    这个爬虫不合格啊,这个密集采集,都会被管理员K的
    Showfom
        12
    Showfom  
    PRO
       2014 年 12 月 10 日
    这爬虫太明显了吧。。。。
    learnshare
        13
    learnshare  
       2014 年 12 月 10 日
    垃圾站:我们不生产内容,我们只是内容的搬运工。

    互联网的内容不应该复制来复制去,有必要的话,一个链接过来就好了。<a> 不是互联网的核心?
    lincanbin
        15
    lincanbin  
       2014 年 12 月 10 日
    这写爬虫都不知道换个baiduspider的header
    xieguobihaha
        16
    xieguobihaha  
       2014 年 12 月 10 日
    good job
    abelyao
        17
    abelyao  
       2014 年 12 月 10 日
    @kmvan @mortal @raincious
    话说有这么高大上的含义吗…?
    我的理解还是简单的 “前因后果” 之类的,例如接上老大那句话就是 “根源上的瑕疵,会让任何一件事情都很难持续。”
    matrix67
        18
    matrix67  
       2014 年 12 月 10 日 via Android
    不过贵站那个收藏回复值应该开放出来
    Livid
        19
    Livid  
    MOD
    OP
    PRO
       2014 年 12 月 10 日
    @matrix67 收藏回复值是指什么东西?
    Ansen
        20
    Ansen  
       2014 年 12 月 10 日
    @abelyao 通俗点就是节操……
    matrix67
        21
    matrix67  
       2014 年 12 月 10 日 via Android
    @Livid 我就感觉发现历史沉淀有价值信息很难发现。有没有系统的方法得到某一帖子多少人收藏这类的信息?

    以此还可以计算帖子的价值。
    Livid
        22
    Livid  
    MOD
    OP
    PRO
       2014 年 12 月 10 日
    @matrix67 明白了 :)
    ming2050
        23
    ming2050  
       2014 年 12 月 10 日 via Android
    @matrix67 matrix67大侠?
    matrix67
        24
    matrix67  
       2014 年 12 月 10 日 via Android
    不是 ╯﹏╰ 哎,不用这个小号了。
    aheadlead
        25
    aheadlead  
       2014 年 12 月 10 日
    @matrix67 再次膜拜Matrix67大神(假装我不知道)
    lifechan
        26
    lifechan  
       2014 年 12 月 10 日
    国内环境如此,比技术比创意,都是在比剽窃,不脚踏实地早晚掉到深沟。
    v2014
        27
    v2014  
       2014 年 12 月 10 日
    @Livid http://v2ex.com/my/nodes/sorted ,打印traceback了
    vincentqi
        28
    vincentqi  
       2014 年 12 月 10 日
    @Livid 贵站的收藏已经是一个不小的功能了,如果在收藏的同时能够打标签就好了,要不然收藏的多就不好找了。
    MonkLuf
        29
    MonkLuf  
       2014 年 12 月 11 日 via Android
    @v2014 再次发现一个用tornado写网站的站点,好激动!
    MonkLuf
        30
    MonkLuf  
       2014 年 12 月 11 日 via Android
    @Livid 这么高的并发量应该不是个人所为吧
    ericls
        31
    ericls  
       2014 年 12 月 11 日 via Android
    有一天我发现我的博客全部发到了百度文库 还分好了类 排好了版
    karma
        32
    karma  
       2014 年 12 月 11 日
    咋感觉....躺枪_(:з」∠)_....
    mengzhuo
        33
    mengzhuo  
       2014 年 12 月 15 日 via iPhone
    @MonkLuf 买十台do的机子 爬个几天就差不多了 个人也可以哈哈哈
    MonkLuf
        34
    MonkLuf  
       2014 年 12 月 17 日
    @mengzhuo do在国外的话,速度快不起来啊,应该不会选择do吧?另:有vps推荐吗?或者do的哪些区域在中国访问会快一点?
    mengzhuo
        35
    mengzhuo  
       2014 年 12 月 17 日
    @MonkLuf
    DO 在国外 问题是V2也在国外啊,如果挑美国的机子,速度更是快
    MonkLuf
        36
    MonkLuf  
       2014 年 12 月 17 日
    @mengzhuo
    @Livid

    v2为什么选择将机器放在美国呢?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2606 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 15:17 · PVG 23:17 · LAX 07:17 · JFK 10:17
    ♥ Do have faith in what you're doing.