煎蛋被爬虫爬炸了 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3030 天前的主题，其中的信息可能已经有所发展或是发生改变。

昨晚到现在煎蛋后台大部分时间是瘫痪着的，因为有人在疯狂采集，连接数过多让煎蛋数据库频繁挂掉。点不了 OOXX 发不出评论 /吐槽的同学不要猜测，原因就是这个。

至于为什么被频繁采集，这要归功于某些拿煎蛋练手还去 github 开源采集煎蛋程序的牛逼程序员们。

原本我们是可以从服务器端屏蔽掉恶意采集，但服务器扛不住 DDOS，不得不全站 cdn，但 cdn 又等于是把静态内容贡献给恶意采集者。

COLT 正努力从技术层面解决。请耐心等候。

以上来自煎蛋站长 sein。

30 条回复 • 2017-12-13 13:24:50 +08:00

1

iShawnWang

2017 年 10 月 16 日 via iPhone

这.....

2

laogui

2017 年 10 月 16 日 via Android

采集不是用同一个 IP 吗？这都防不了？难道换着 IP 采集？

3

Mikewu

2017 年 10 月 16 日

@laogui 看正文，估计是成为开源爬虫项目中的 Demo 了。

4

lwbjing

2017 年 10 月 16 日

@laogui 文中有提到“开源采集煎蛋程序”，想像一下场景...

5

jas0ndyq

2017 年 10 月 16 日 via iPhone

快了？

6

takanasi

2017 年 10 月 16 日 via Android

1

所以不爱写爬虫，感觉比较缺德

7

zts1993

2017 年 10 月 16 日

写个爬虫练个手，你看知乎现在登陆都要验证码了。

8

oh

2017 年 10 月 16 日 via iPhone

@laogui 多 IP 多线程甚至分布式采集不都是必备的么…

9

coderluan

2017 年 10 月 16 日

1

写爬虫从来只用单线程龟速爬，否则感觉自己在干缺德的事。

10

yu099

2017 年 10 月 16 日 via Android

果然，我说图怎么刷不出来

11

doublleft

2017 年 10 月 16 日

猜测一下，因为我也采过，一般都是爬妹子图吧。。既然妹子图链到的是微博图床，能不能直接开个 api

12

swulling

2017 年 10 月 16 日

技术不行罢了

13

deeporist

2017 年 10 月 16 日

加油

14

EricCartman

2017 年 10 月 16 日

1

重定向爬虫到开源操作系统镜像文件

15

yu099

2017 年 10 月 16 日 via Android

@EricCartman 这个不错

16

Sapp

2017 年 10 月 16 日

最近知乎的爬虫教程都烂大街了，真搞不懂弄那么多爬虫是搞毛？就图个好玩？

17

gamexg

2017 年 10 月 16 日

1

@oh #8

如果确认是开源爬虫问题，那么很好搞定啊。
直接照着爬虫规则改，让爬虫无法匹配即可。

另外虽然多 ip 分布式是爬虫常见功能，但是个人学习的话 ip 来源不会有那么多，高频率 ip 封禁或者加 js 验证、验证码验证都能够解决。

18

lingo

2017 年 10 月 16 日

@swulling 个人感觉不能单纯用技术不行来说。本来以他们技术可以维持网站的的正常访问，结果这个开源项目带来大量的异常流量导致网站挂了，总不能要求每个公司都跟 BAT 一样吧。

19

iFlicker

2017 年 10 月 16 日

1

老大加油，可怜的 COLT。。。估计 colt 系列无聊图又要出了

20

WordTian

2017 年 10 月 16 日 via Android

我说怎么最近评论的时候总出问题呢

21

mohoumk2

2017 年 10 月 16 日

11

发现回复下面有个有趣的评论

22

ccc008

2017 年 10 月 16 日

爬蚱好吃

23

congeec

2017 年 10 月 16 日 via iPhone

缺德

24

jy02201949

2017 年 10 月 16 日 via Android

访问到这个量级的站也不好好考虑自身条件是否符合发展需要，当年被告也是这样不知所措

25

Lentin

2017 年 10 月 16 日

搞个 api 不就好了，还采集啥（雾

26

fuxkcsdn

2017 年 10 月 16 日

2

@mohoumk2 正解！上次在 V 站上看到有人“又”（为什么说又呢？你们懂的）在发布所谓牛逼的煎蛋爬虫，at 了站长也没做处理
这边不让讨论盗版，却可以光明正大的分享偷（别说爬虫不算偷）别人数据的项目...

27

zander1024

2017 年 10 月 30 日

@mohoumk2 人家说的大实话啊 https://www.v2ex.com/t/401866#reply60

28

wbt

2017 年 10 月 30 日

。。。

29

tuding

2017 年 10 月 30 日

@coderluan +1
我也是单线程爬, 而且挂服务器上, 避开高峰时间

30

Jayce245

2017 年 12 月 13 日

你要是说练个手爬几张图片看看是不是正确也就算了，无限制爬取的确挺缺德的

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 1929 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 29ms · UTC 15:45 · PVG 23:45 · LAX 07:45 · JFK 10:45
♥ Do have faith in what you're doing.