1
robinshi2010 2014 年 1 月 3 日
顶一下。这个问题也好奇。坐等明白人回复。
|
2
jtacm 2014 年 1 月 3 日 有一个思路,反编译大众点评的andriod客户端,看andriod客户端用什么协议去读取数据的,模仿之。
|
4
pirex 2014 年 1 月 3 日
你可以先采集IP地址来练手
|
5
Ever 2014 年 1 月 3 日 去应聘dianping DBA.
|
8
wtl 2014 年 1 月 3 日
每次被封之后 断开adsl 重新拨号
|
10
Lelouchcr 2014 年 1 月 3 日 试试看用goagent来做代理~
goagent每次发出的请求的地址是不确定的 |
11
noahzh 2014 年 1 月 3 日
用一个可以自动切换ip 的路由,大年见过大神用一台笔记本加自动切换ip的路由,用erlang写的程序把大众点评数据全都跑下来了,大众点评还内部开会讨论这个问题了....
|
12
chens 2014 年 1 月 3 日
可以去抓site:www.dianping.com
|
14
suckli 2014 年 1 月 3 日
修改ip包头的源地址~
|
15
yushiro 2014 年 1 月 3 日
曾经采集过, 1秒1个还是太频繁, 我记得当时是1~5秒随机延迟进行采集的, 不过我采集量不大, 也就采集了10w家店铺。
|
16
allenforrest 2014 年 1 月 3 日
@pc10201 居然不是 https 的?
|
17
arron 2014 年 1 月 3 日
大多数路由器也就一个http请求就可以重连的,然后定时去重连。 一般20秒就重连换ip了。 这样会慢点儿, 我记得两年前这么采了dianping 80万数据的样子, 1~2天时间吧。
上面看你那几百个代理已经够用了,采集一轮,第二轮又可以使了。 点评又没限制一天你一个ip的采集数量。也可以每次换着ip采集,这样同一ip的采集间隔时间就很长了。 |
18
arron 2014 年 1 月 3 日
另外两三年前,我记得点评的店铺我基本都采集了,估摸着漏掉的加起来也就100万数据。
|
19
Livid MOD PRO 我真的不明白为什么要研究这方面的技术,你不可能靠采集来的数据做一个比点评更好的网站。
|
20
tokki 2014 年 1 月 3 日
中国人力很便宜
|
22
sivacohan PRO @Livid
我抓过58同城的数据。量比较少,大概几千条。 需求的产生是一个朋友去找了一份做理财产品的工作,似乎是做外汇的机构。然后他们的Leader让他们找2000个做金融,理财方面的联系人的电话。 这个数据的意义可能不仅仅是复制一个点评,而是因为点评本身不出售符合某种聚合要求的数据,就导致了这种抓取需求的出现。 |
23
wuyadong 2014 年 1 月 3 日
我们拿到了点评的全网数据,cookie,代理,抓取间隔,注意这些东西,就能抓到了。
|
24
imcj 2014 年 1 月 3 日
抓到了以后提供一个公开的API给大家读吧。
|
26
wangtao 2014 年 1 月 3 日
尽量模拟用户访问,不让点评觉得你是个机器人。。
|
29
likuku 2014 年 1 月 3 日 @wangtao 同意的说~ 既然「这就是中国式嘛,想省工人录数据。而且VC和天使都是看数据量和用户量的,不在意清楚你数据那里来的。」 那么自己作机器人程序完全凭空捏造就好了。
|
30
zencoding 2014 年 1 月 3 日 via Android
伪造蜘蛛也不行吗?那就上Tor
|
31
pythoner 2014 年 1 月 3 日
建议从移动客户端入手。比如iphone/安卓 app,比如网站手机版
|
32
ibolee 2014 年 1 月 3 日
不知道你这是个什么情况
之前采集过百度知道。用了一个专属asdl网线,2M,采集被屏蔽后,重启路由器自动获取新IP 如此周而复始,周而复始。。。 |
33
yanng 2014 年 1 月 3 日 via iPad 感觉点评的立场已经非常明确了,不让采。为什么还去采呢?别作恶。
|
34
dingyaguang117 2014 年 1 月 3 日
去年抓过点评美食的几十万POI数据,大概1秒一个,5台服务器一起爬的
|
35
the13matrix 2014 年 1 月 3 日
不建议楼主买代理,那可能是黑客玩剩的,小心背黑锅。
我有2w只鸡,用i2p控制的,全部开出口代理不难,但速度极慢。5秒一个请求就不错了。 |
36
powerfj 2014 年 1 月 3 日
很不解,如果一秒钟一个的话,那对于比较大的公司,代理出口上网的话,点评不就上不了了?
|
37
underone 2014 年 1 月 4 日
点评的开放平台不能满足获取数据的需求吗……
|
40
bengol 2014 年 1 月 4 日
难道lz不做压力控制?
|
42
colincat 2014 年 1 月 4 日 多线程 多机器 随机延迟5-10秒,通过不断变换IP每采集100个换一次IP,不断重复上述过程,采集需要不断的测试。还有很多策略不宜公开,反正逆向思维,如果你做这些网站如何防范,然后做出对应的策略,基本上没有不能采的站。
吼吼 ~ 我发现我对各家的策略都很熟悉了,常年采集各大互联网网站,基本都被我攻陷了~ |
44
freewizard 2014 年 1 月 4 日 即使不获得任何商业利益,抓取大众点评网站数据明确违反了他们的许可协议
http://www.dianping.com/aboutus/zhishichanquan.html http://www.dianping.com/aboutus/useragreement 肯定有民事诉讼的风险 同时如在中国境内抓取或提供抓取工具也有触犯刑法修正案(七)的可能。 http://www.gov.cn/flfg/2009-02/28/content_1246438.htm |
45
zack 2014 年 1 月 4 日
采集数据这件事情本身真没有什么值得练手的,除非是想研究更尖端的爬虫数据。如果是要做一些数据分析的话,采样一些数据就够了,没必要去钻研那些反抓取的策略,那些东西来来回回也不过就是那几个套路,其实没什么乐趣,也不是什么值得好奇的问题,太多人天天在用粗糙的手法做这样的工作了。
|
47
oldcai PRO @freewizard “提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。”
抓取好像不算侵入、非法控制 |
48
freewizard 2014 年 1 月 7 日 @oldcai “采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据”
|
49
oldcai PRO @freewizard 受教。
|
51
pc10201 OP @lazybios Fiddler 跟踪 Android 数据包 http://www.cnblogs.com/bencalie/archive/2012/02/27/2369741.html
|
52
keven 2014 年 3 月 23 日
目前貌似只有“云采集”对比较有效,云采集就是利用庞大的云端计算机集群来采集,国内有个八爪鱼采集器,有这种技术,而且还对采集速度有智能调控。
|
54
reall3116 2015 年 1 月 15 日
@pc10201 楼主最后有什么好的解决方法么?我一直都在用相关的工具来拿电商的评论,被禁掉真是最仁慈的反爬虫策略了…… 就算是每次请求都延迟或者换IP,当数据量相当大的时候时间成本都是不可想象的
|
55
dgivan 2016 年 9 月 18 日
每一,别一天干掉一个站,慢点爬,设置下载延迟
第二,修改请求头,浏览器 第三,用高质量代理。企业建议用:阿布云代理等等 第四,禁止 Cookie 第五,分布式爬取 可以用下这个代理: http://www.abuyun.com |