1
robinshi2010 2014-01-03 10:07:30 +08:00
顶一下。这个问题也好奇。坐等明白人回复。
|
2
jtacm 2014-01-03 10:10:55 +08:00 1
有一个思路,反编译大众点评的andriod客户端,看andriod客户端用什么协议去读取数据的,模仿之。
|
4
pirex 2014-01-03 10:15:47 +08:00
你可以先采集IP地址来练手
|
5
Ever 2014-01-03 10:17:41 +08:00 2
去应聘dianping DBA.
|
8
wtl 2014-01-03 10:43:19 +08:00
每次被封之后 断开adsl 重新拨号
|
10
Lelouchcr 2014-01-03 10:49:29 +08:00 1
试试看用goagent来做代理~
goagent每次发出的请求的地址是不确定的 |
11
noahzh 2014-01-03 10:50:37 +08:00
用一个可以自动切换ip 的路由,大年见过大神用一台笔记本加自动切换ip的路由,用erlang写的程序把大众点评数据全都跑下来了,大众点评还内部开会讨论这个问题了....
|
12
chens 2014-01-03 10:50:44 +08:00
可以去抓site:www.dianping.com
|
13
pc10201 OP @xdeng 我研究了一下大众点评的anroid客户端,是基于HTTP协议的,但采用了某种特殊的流量压缩技术,用普通的抓包软件查看都是乱码~
|
14
suckli 2014-01-03 11:23:00 +08:00
修改ip包头的源地址~
|
15
yushiro 2014-01-03 11:23:35 +08:00
曾经采集过, 1秒1个还是太频繁, 我记得当时是1~5秒随机延迟进行采集的, 不过我采集量不大, 也就采集了10w家店铺。
|
16
allenforrest 2014-01-03 12:09:09 +08:00
@pc10201 居然不是 https 的?
|
17
arron 2014-01-03 12:09:47 +08:00
大多数路由器也就一个http请求就可以重连的,然后定时去重连。 一般20秒就重连换ip了。 这样会慢点儿, 我记得两年前这么采了dianping 80万数据的样子, 1~2天时间吧。
上面看你那几百个代理已经够用了,采集一轮,第二轮又可以使了。 点评又没限制一天你一个ip的采集数量。也可以每次换着ip采集,这样同一ip的采集间隔时间就很长了。 |
18
arron 2014-01-03 12:12:42 +08:00
另外两三年前,我记得点评的店铺我基本都采集了,估摸着漏掉的加起来也就100万数据。
|
19
Livid MOD 我真的不明白为什么要研究这方面的技术,你不可能靠采集来的数据做一个比点评更好的网站。
|
20
tokki 2014-01-03 12:23:25 +08:00
中国人力很便宜
|
22
sivacohan 2014-01-03 12:30:41 +08:00
@Livid
我抓过58同城的数据。量比较少,大概几千条。 需求的产生是一个朋友去找了一份做理财产品的工作,似乎是做外汇的机构。然后他们的Leader让他们找2000个做金融,理财方面的联系人的电话。 这个数据的意义可能不仅仅是复制一个点评,而是因为点评本身不出售符合某种聚合要求的数据,就导致了这种抓取需求的出现。 |
23
wuyadong 2014-01-03 12:33:46 +08:00
我们拿到了点评的全网数据,cookie,代理,抓取间隔,注意这些东西,就能抓到了。
|
24
imcj 2014-01-03 12:42:29 +08:00
抓到了以后提供一个公开的API给大家读吧。
|
26
wangtao 2014-01-03 13:28:21 +08:00
尽量模拟用户访问,不让点评觉得你是个机器人。。
|
29
likuku 2014-01-03 14:14:28 +08:00 1
@wangtao 同意的说~ 既然「这就是中国式嘛,想省工人录数据。而且VC和天使都是看数据量和用户量的,不在意清楚你数据那里来的。」 那么自己作机器人程序完全凭空捏造就好了。
|
30
zencoding 2014-01-03 16:52:23 +08:00 via Android
伪造蜘蛛也不行吗?那就上Tor
|
31
pythoner 2014-01-03 17:00:35 +08:00
建议从移动客户端入手。比如iphone/安卓 app,比如网站手机版
|
32
ibolee 2014-01-03 17:17:42 +08:00
不知道你这是个什么情况
之前采集过百度知道。用了一个专属asdl网线,2M,采集被屏蔽后,重启路由器自动获取新IP 如此周而复始,周而复始。。。 |
33
yanng 2014-01-03 18:35:46 +08:00 via iPad 1
感觉点评的立场已经非常明确了,不让采。为什么还去采呢?别作恶。
|
34
dingyaguang117 2014-01-03 19:48:32 +08:00
去年抓过点评美食的几十万POI数据,大概1秒一个,5台服务器一起爬的
|
35
the13matrix 2014-01-03 23:00:51 +08:00
不建议楼主买代理,那可能是黑客玩剩的,小心背黑锅。
我有2w只鸡,用i2p控制的,全部开出口代理不难,但速度极慢。5秒一个请求就不错了。 |
36
powerfj 2014-01-03 23:47:04 +08:00
很不解,如果一秒钟一个的话,那对于比较大的公司,代理出口上网的话,点评不就上不了了?
|
37
underone 2014-01-04 01:37:52 +08:00
点评的开放平台不能满足获取数据的需求吗……
|
38
virushuo 2014-01-04 04:21:11 +08:00 via iPad
@Livid 抓数据通常不会为了复制原站,而是做一些其他用途。比如用来监控上海饭馆新开业数量和倒闭数量什么的,不是很有趣?
|
40
bengol 2014-01-04 08:14:23 +08:00
难道lz不做压力控制?
|
42
colincat 2014-01-04 10:28:47 +08:00 1
多线程 多机器 随机延迟5-10秒,通过不断变换IP每采集100个换一次IP,不断重复上述过程,采集需要不断的测试。还有很多策略不宜公开,反正逆向思维,如果你做这些网站如何防范,然后做出对应的策略,基本上没有不能采的站。
吼吼 ~ 我发现我对各家的策略都很熟悉了,常年采集各大互联网网站,基本都被我攻陷了~ |
44
freewizard 2014-01-04 16:12:58 +08:00 2
即使不获得任何商业利益,抓取大众点评网站数据明确违反了他们的许可协议
http://www.dianping.com/aboutus/zhishichanquan.html http://www.dianping.com/aboutus/useragreement 肯定有民事诉讼的风险 同时如在中国境内抓取或提供抓取工具也有触犯刑法修正案(七)的可能。 http://www.gov.cn/flfg/2009-02/28/content_1246438.htm |
45
zack 2014-01-04 20:01:28 +08:00
采集数据这件事情本身真没有什么值得练手的,除非是想研究更尖端的爬虫数据。如果是要做一些数据分析的话,采样一些数据就够了,没必要去钻研那些反抓取的策略,那些东西来来回回也不过就是那几个套路,其实没什么乐趣,也不是什么值得好奇的问题,太多人天天在用粗糙的手法做这样的工作了。
|
47
oldcai 2014-01-06 20:42:18 +08:00
@freewizard “提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。”
抓取好像不算侵入、非法控制 |
48
freewizard 2014-01-07 02:39:34 +08:00 1
@oldcai “采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据”
|
49
oldcai 2014-01-07 11:16:43 +08:00
@freewizard 受教。
|
51
pc10201 OP @lazybios Fiddler 跟踪 Android 数据包 http://www.cnblogs.com/bencalie/archive/2012/02/27/2369741.html
|
52
keven 2014-03-23 19:48:17 +08:00
目前貌似只有“云采集”对比较有效,云采集就是利用庞大的云端计算机集群来采集,国内有个八爪鱼采集器,有这种技术,而且还对采集速度有智能调控。
|
54
reall3116 2015-01-15 17:56:41 +08:00
@pc10201 楼主最后有什么好的解决方法么?我一直都在用相关的工具来拿电商的评论,被禁掉真是最仁慈的反爬虫策略了…… 就算是每次请求都延迟或者换IP,当数据量相当大的时候时间成本都是不可想象的
|
55
dgivan 2016-09-18 15:42:23 +08:00
每一,别一天干掉一个站,慢点爬,设置下载延迟
第二,修改请求头,浏览器 第三,用高质量代理。企业建议用:阿布云代理等等 第四,禁止 Cookie 第五,分布式爬取 可以用下这个代理: http://www.abuyun.com |