1
iShawnWang 2017-10-16 12:54:46 +08:00 via iPhone
这.....
|
2
laogui 2017-10-16 13:01:58 +08:00 via Android
采集不是用同一个 IP 吗?这都防不了?难道换着 IP 采集?
|
5
jas0ndyq 2017-10-16 13:08:01 +08:00 via iPhone
快了?
|
6
takanasi 2017-10-16 13:09:15 +08:00 via Android 1
所以不爱写爬虫,感觉比较缺德
|
7
zts1993 2017-10-16 13:21:37 +08:00
写个爬虫练个手,你看知乎现在登陆都要验证码了。
|
9
coderluan 2017-10-16 13:47:33 +08:00 1
写爬虫从来只用单线程龟速爬,否则感觉自己在干缺德的事。
|
10
yu099 2017-10-16 13:58:46 +08:00 via Android
果然,我说图怎么刷不出来
|
11
doublleft 2017-10-16 13:58:51 +08:00
猜测一下,因为我也采过,一般都是爬妹子图吧。。 既然妹子图链到的是微博图床,能不能直接开个 api
|
12
swulling 2017-10-16 14:02:05 +08:00
技术不行罢了
|
13
deeporist 2017-10-16 14:48:23 +08:00
加油
|
14
EricCartman 2017-10-16 14:51:06 +08:00 1
重定向爬虫到开源操作系统镜像文件
|
15
yu099 2017-10-16 15:02:32 +08:00 via Android
@EricCartman 这个不错
|
16
Sapp 2017-10-16 16:09:53 +08:00
最近知乎的爬虫教程都烂大街了,真搞不懂弄那么多爬虫是搞毛?就图个好玩?
|
17
gamexg 2017-10-16 16:23:16 +08:00 1
@oh #8
如果确认是开源爬虫问题,那么很好搞定啊。 直接照着爬虫规则改,让爬虫无法匹配即可。 另外虽然多 ip 分布式是爬虫常见功能,但是个人学习的话 ip 来源不会有那么多,高频率 ip 封禁或者加 js 验证、验证码验证都能够解决。 |
18
lingo 2017-10-16 18:03:09 +08:00
@swulling 个人感觉不能单纯用技术不行来说。本来以他们技术可以维持网站的的正常访问,结果这个开源项目带来大量的异常流量导致网站挂了,总不能要求每个公司都跟 BAT 一样吧。
|
19
iFlicker 2017-10-16 18:26:45 +08:00 1
老大加油, 可怜的 COLT。。。估计 colt 系列无聊图又要出了
|
20
WordTian 2017-10-16 19:28:08 +08:00 via Android
我说怎么最近评论的时候总出问题呢
|
21
mohoumk2 2017-10-16 21:11:35 +08:00 11
|
22
ccc008 2017-10-16 21:19:45 +08:00
爬蚱好吃
|
23
congeec 2017-10-16 21:34:04 +08:00 via iPhone
缺德
|
24
jy02201949 2017-10-16 22:52:29 +08:00 via Android
访问到这个量级的站也不好好考虑自身条件是否符合发展需要,当年被告也是这样不知所措
|
25
Lentin 2017-10-16 23:03:48 +08:00
搞个 api 不就好了,还采集啥(雾
|
26
fuxkcsdn 2017-10-16 23:13:47 +08:00 2
@mohoumk2 正解!上次在 V 站上看到有人“又”(为什么说又呢?你们懂的)在发布所谓牛逼的煎蛋爬虫,at 了站长也没做处理
这边不让讨论盗版,却可以光明正大的分享偷(别说爬虫不算偷)别人数据的项目... |
27
zander1024 2017-10-30 13:45:58 +08:00
|
28
wbt 2017-10-30 14:03:17 +08:00
。。。
|
30
Jayce245 2017-12-13 13:24:50 +08:00
你要是说练个手爬几张图片看看是不是正确也就算了,无限制爬取的确挺缺德的
|