Bytespider 得知来自于头条系。一搜索发现众多小站中招。
几宗罪:
useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,
我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。
搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?
请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?
附图(转载至他站,IIS 日志中类似于此)
1
haoji 2019 年 10 月 22 日 via iPhone
别说之前没想过,好像他家的爬虫真的挺占资源的…
|
2
xiaomimix5 OP @haoji 关键是不遵守 robots.txt 的 disallow 规则
|
3
wangyzj 2019 年 10 月 22 日
好歹人家是爬虫起家的
|
4
mamahaha 2019 年 10 月 22 日
不是靠内含段子起家的吗?
|
5
uyhyygyug1234 2019 年 10 月 22 日 如果是 Bytespider 的 ua,返回一点违禁词。。。
|
6
TheWalkingDead 2019 年 10 月 22 日 花钱找人 DDOS 你们,让他们爬虫进不来。
|
7
ddup 2019 年 10 月 22 日 via Android
举报他们非法爬取数据
|
8
nevin47 2019 年 10 月 22 日 via Android
不遵守 robots 一举报一个准啊
|
9
jeeyong 2019 年 10 月 22 日 报警吧..前段时间刚抓一家公司...
一样的事情... |
10
alocne 2019 年 10 月 22 日 防火墙屏蔽
110.249.202.0/24 110.249.201.0/24 111.225.149.0/24 111.225.148.0/24 |
11
ClericPy 2019 年 10 月 22 日
@uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
|
13
misaka19000 2019 年 10 月 22 日
报警
|
14
nyaapass 2019 年 10 月 22 日
报警 + 1
|
15
leonard916 2019 年 10 月 22 日
可以告他们 好多程序员都因此收到过传票
|
16
jinliming2 2019 年 10 月 22 日 via iPhone
丢个 gzip 炸弹过去
|
17
dioxide 2019 年 10 月 23 日
之前 v2 一帖子说: 某人使用爬头条的内容被头条立案起诉了... 说它是爬虫起家的真不为过.
|
18
xiaoz 2019 年 10 月 23 日
@uyhyygyug1234 奇淫技巧
|
19
zbl430 2019 年 10 月 23 日
收集证据,律师函 ->起诉
最恨的手段识别这些 ip,返回错误数据(和真的一样) |
20
zsj950618 2019 年 10 月 23 日 via Android
|
21
humor66 2019 年 10 月 23 日
不赶紧爬,怎么做搜索?
|
22
cnrting 2019 年 10 月 23 日 via iPhone
屏蔽 ip 最简单有效
|
23
unclemcz 2019 年 10 月 23 日
直接封 IP 吧,我对 Bytespider 的操作是这么处理的,很简单很暴力,只要特定页面记录访客浏览记录( ua、ip ),程序定期检索访客的 ua,检索到关键字后,将对应的 ip 加到屏蔽列表。
|
24
skenan 2019 年 10 月 25 日
自己用的..
``` if ($http_user_agent ~* (bytespider|scrapy)) { return 444; } ``` |