1
ooh 2013-12-15 16:48:13 +08:00 1
关键是找出他的机器ip,给他点porn?
|
2
sanddudu 2013-12-15 16:50:09 +08:00 1
如果对方还有良心,UA里会用 XX-Spider 这样的字符表示
完全无节操,模拟客户端访问,那就在发一篇文章之后看着请求日志,如果发现有可疑ip就查日志 |
4
GASALA OP @sanddudu 嗯,常规几个搜索引擎的都有标识,但是这个网站实在没有看到有明显的标识,看来只能一个一个排除?那工作量好大,日志文件很大。
|
5
ooh 2013-12-15 16:56:16 +08:00
@GASALA 哎,你看看他们网站ip是多少,找找看日志里面有没有,一般来说他访问时间很固定,可能一天就那么几次,也有可能是手动触发,所以说要找到他很难,可以试试检查header各个参数来揪出来,问题是恐怕不止一个在爬吧,让他去吧
|
8
Kirkcong 2013-12-15 17:08:36 +08:00
直接律师函即可,这样就不适用避风港原则了。
|
9
Livid MOD 给 2 个小时的日志样本来看看吧。
|
10
zeinima 2013-12-15 20:44:45 +08:00
取证保存公证
找个律师发封律师信 |
11
zeinima 2013-12-15 20:45:04 +08:00
法制不健全的受害者就是普通人
|
12
snowhs 2013-12-15 21:44:53 +08:00
|
13
snowhs 2013-12-15 21:48:26 +08:00
btw, 我就引用一下内容,不对事情本身发表意见。
|
14
rove 2013-12-15 21:54:01 +08:00
跑个题,Greader以前也可以对内容直接抓取···
|
15
lovejoy 2013-12-15 22:52:15 +08:00
虎嗅 ? 发律师函吧,不标明是spider,而且你们访问量应该比较大,日志确实难分析,或者明天发篇文章黑下对方?
|
16
abbatuu 2013-12-15 23:32:48 +08:00 2
技术仅仅是一个层面的东西
你还可以选择 1 工商局投诉 深圳二木科技有限公司 2 为它做一些广告 当然是负面的 每一篇文章内容前增加一句注释 wumii无良 盗取内容 3 联合其他被盗受损的客户 寻求法律支持 |
17
binux 2013-12-15 23:40:48 +08:00
发一篇文章,首先限制奇数IP不可见,5分钟后放开。如果在这时间内对方抓去了,那就排除掉一半了,如此往复
|
18
binux 2013-12-15 23:45:06 +08:00 3
突然想到这个太麻烦了。。
直接文章里面插入一个编码,每次访问都不同,抓去之后看他抓的那个编码对应的请求信息就完了。 |
22
txlty 2013-12-16 04:28:17 +08:00 1
有个办法是批量连接访客IP的80端口,如果哪个IP是通的,就有服务器嫌疑。
其实这个问题在技术上无解。如果采集程序在工作场所的PC上,由PC端上传入库。工作场所是adsl拨号产生的动态IP,怎么封? |
23
txlty 2013-12-16 04:53:39 +08:00 1
如果采集方使用的不是100%模拟浏览器(不请求图片、不执行JS),那么是有办法抓出采集者IP的。
访问文章页面->记录访客IP,(延迟n秒后)通过页面一段JS以ajax方式发出一个请求,响应端收到请求后 删除IP记录 或 标记IP为正常访问。 这样,留下来的就是机器人IP。如果是固定IP那就好办了。注意别把搜索蜘蛛当采集爬虫了。 |
24
wzxjohn 2013-12-16 09:42:36 +08:00 via Android
看了大家的方法让我顿时觉得,原来还能这么玩!受教了!
|
25
underone 2013-12-16 10:21:08 +08:00 1
直接微博上去@林承仁 比较有效吧
在无觅初创的时候,还是很用过一阵的,没想到现在变成这样…… |