最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:
但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:
https://sf.taobao.com/item_list.htm
正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒
更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡
请问该如何道高一尺魔高一丈?🎃
1
murmur 2022-02-23 13:59:12 +08:00 31
这里有京东的人么,你们的法务部该行动了
|
2
9c04C5dO01Sw5DNL 2022-02-23 14:00:07 +08:00 18
楼主可真刑啊
|
3
cweijan 2022-02-23 14:00:58 +08:00 1
对, 不能太频繁, 而且请求后要用新 cookie 替换掉当前 cookie
|
4
registerrr 2022-02-23 14:01:33 +08:00
很可铐,我看刑
|
5
einq7 2022-02-23 14:03:36 +08:00 8
我铐,家人们,太刑了,日子越来越有判头了
|
6
westoy 2022-02-23 14:05:01 +08:00 3
V 站京东的程序员呢? 楼主这样挑衅你们能忍么? 快点去肝反爬
|
7
deplivesb 2022-02-23 14:09:24 +08:00
楼主离国家饭越来越近了
|
8
SoulClinic OP 你们太纯真善良了,这些数据“好像”是公开的啊,已经有类似的 app 了,例如这个: https://www.yfbudong.com/
@cweijan 替换 cookie 我试了确实可行,但是只能人工,请教自动替换怎么整( puppeteer 有点点被阿里打压了一样) |
9
YUyu101 2022-02-23 14:14:20 +08:00
对不知道有没有用无头浏览器爬的
|
10
statement 2022-02-23 14:17:36 +08:00
看是否追究了 公开的数据爬应该可以 但可以给你安一个 破坏计算机系统罪 而且你爬公开信息 也只能自用 不能对外提供服务吧
|
11
QK8wAUi0yXBY1pT7 2022-02-23 14:19:36 +08:00 1
我就正常用 Chrome 打开淘宝都时不时出现那个验证。
掏包网太瓷了。 |
12
wunonglin 2022-02-23 14:19:36 +08:00
@SoulClinic #8 你知道什么是口袋罪么?
|
13
googlefans 2022-02-23 14:19:49 +08:00
@einq7 hahaha
|
14
SoulClinic OP 咱暂时的底牌就是:如果阿里的爬不到,就爬这个海豚网
大部分需要的阿里的数据好像在这个海豚里都有 🤖 |
15
TtTtTtT 2022-02-23 14:22:11 +08:00
@SoulClinic 马路也是公开的,也不能说躺就躺啊 =。= 公开和数据的归属权本来就是两回事。
|
16
ChicC 2022-02-23 14:22:26 +08:00
反爬做到牺牲用户体验了
|
17
ospider 2022-02-23 14:22:54 +08:00 2
一谈爬虫就开始玩儿梗,要真去逆向板块反倒一群大佬能谈点技术。某些 V 友真是魔怔了,恨不得马上替阿里用口袋罪给抓住。就这个来说,去搜下各种指纹吧,TCP 指纹、TLS 指纹、浏览器指纹,会有些思路的。
|
18
SoulClinic OP @wunonglin 不知道,听起来 Google 好像是罪大恶极了?
用户跟我说的主要目的就是节省用户(主要是律师)的时间 /效率,现在他们要一时搜京东,一时搜阿里,白花了很多时间精力 这就是货真价实,名正言顺的“为人民服务”啊!! |
19
Jooooooooo 2022-02-23 14:34:14 +08:00
@SoulClinic 公开数据当然不能随便爬. 搜 爬虫 坐牢 有惊喜.
|
20
winnerczwx 2022-02-23 14:35:47 +08:00
@SoulClinic #8 绕过反爬已经属于违法行为了, 即使是公开信息... 只要对面公司起诉必被抓
|
21
statement 2022-02-23 14:40:11 +08:00 1
@ospider 也不是单纯的玩梗 只是提示风险 毕竟已经有很多案例了 如果真想送你进去 一定可以送你进去。确实是违法的 只是影响力不大 没造成破坏和竞争 追究没有收益罢了 。 和建梯子出售差不多 道德上没啥问题但违法 你在这里说 肯定回你我看刑 你到相应社区就会和你交流技术
|
22
gongquanlin 2022-02-23 14:40:11 +08:00 1
淘宝连正常用户都 ban , 我正常访问都动不动出来个验证码反爬
|
23
wanguorui123 2022-02-23 14:44:56 +08:00
准备免费就餐吗?
|
25
SoulClinic OP 这个违法问题咱是提前问了客户的啊,他说没问题,这是合法的😹
咱主要是冲着玩技术去,有点挑战更好玩 传说中爬虫都要用 Python 似的,咱可是要替 node/JavaScript 取回公道啊 |
26
SoulClinic OP 难道你们不想做黑客吗?不想的快去买一本《黑客与画家》
|
27
deplivesb 2022-02-23 14:54:59 +08:00 1
@SoulClinic #8 公开的数据不代表比可以通过非正常技术手段获取。给你找一些案例,https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
这里面哪一个的数据不是公开的。说不好听的,如果你爬的是 gov 网站,请求量过大,把人家系统搞崩了。那反手就是一个 非法侵入计算机信息系统罪,给你说一个真事。我的一个同学现在在某银行的清算机构,今年年前因为要对接数字人民币,他的同事和数字人民的人测试联调,在测试环境,因为发送了较多的不合规的数据(测试嘛,再尝试各种条件下的错误之类的),被人家直接报警了。理由就是 “尝试” 进行破解,最后我这个同学的同事被派出所拉过去各调查问话,最后还被开除了。 所以说,远离爬虫,自己玩玩就行了,数据握在自己手里。别公开声张。你这个还用跑来的数据做小程序。然后后期再进行了盈利,那你真是离牢饭不远了 |
28
westoy 2022-02-23 14:58:40 +08:00
|
29
westoy 2022-02-23 15:00:19 +08:00
|
30
lithiumii 2022-02-23 15:00:35 +08:00
确实没见过能绕过阿里的滑块的爬法,正常使用都会跳,何况爬虫。淘宝天猫还好,印象中考拉和高德之类的阿里系,同款滑块但要求更严,真人正常使用都会滑不过
|
31
herozzm 2022-02-23 15:02:50 +08:00 via Android 4
有很多人先行把自己先锁上了,字节跳动不就是靠这个发家的嘛
|
32
ElegantOfKing 2022-02-23 15:07:08 +08:00 2
真的违法。客户说不违法,那是客户不知道的。
我关注的一个博主,爬虫能力特别强,做了所谓的淘宝每日商品排名,主要是免费提供给大家看看热度。直接被淘宝的律师警告+杭州法院出庭。从此之后他没再碰淘宝的任何业务。 他免费的都栽了,更何况你这都是盈利了。 |
33
westoy 2022-02-23 15:11:17 +08:00
@herozzm
时政新闻的互联网管制这块一向很厉害的, 搞垃圾站的都不敢碰的, 你去做流量一大被盯上, 当地的文化、新闻各种管局绝对会来抄你服务器的。 而且当时备案严打最厉害的时候, 各种 IDC 清退个人用户, 企业网站甚至连留言簿都要下, 不然可能机房都会被封。 而头条还敢做评论。 你想想当时头条的业务, 字节能做, 你能做么, 你敢做么? |
34
icy37785 2022-02-23 15:16:38 +08:00 via iPhone 4
@ospider #16 可不是玩梗。这事儿真就看追不追不追究,追究的话这些大公司的法务一告一个准,我可见太多爬公开信息戴银手镯的了。
|
35
mrhhsg 2022-02-23 15:16:58 +08:00
我看刑,有判头,很可铐!
楼主加油,争取早日吃上官家饭 |
36
musi 2022-02-23 15:17:41 +08:00
@SoulClinic #25 你要不猜一下阿里为什么花大力气做反爬?单纯做着玩?还有爬虫和用什么语言无关,就别纠结 Python 还是 nodejs 了。违不违法你竟然去问客户而不是问律师,你这方便了客户客户当然高兴,那肯定让你做喽。还管你违不违法
|
37
azuis 2022-02-23 15:26:43 +08:00
淘宝页面反爬很难的。要么你养足够多的账号,要么就是去逆向 App
|
38
ospider 2022-02-23 15:27:07 +08:00
回楼上的诸位:梯子被抓的多还是爬虫被抓的多?在法律边缘试探的事情多了去了,我就是好奇为啥唯独爬虫讨论下边这种『警示』和自我阉割的言论特别多。爬人家的商业数据当然违法了,我不想洗白这一点,纯好奇。
|
39
westoy 2022-02-23 15:30:27 +08:00
@azuis
app 也有反爬的, 它那个反爬是全系全端全局的(甚至涵盖了千牛) 它那个反爬有个动态权重的,app 端稍微加权低一点, 但是命中+解锁频率一频, 权重就会上去, 究极形态是一段时间内无限命中验证码 |
41
opengps 2022-02-23 15:46:20 +08:00 via Android
淘宝的用户不会是 idc 来源,所以封掉机房 ip 段非常正常
淘宝的反爬跟亚马逊一个道理,从零起家的电商都深受其害,自然处理到位。 至于京东为什么好爬,可能是不在乎流量成本吧 |
42
yhxx 2022-02-23 15:55:16 +08:00
|
43
dcsuibian 2022-02-23 16:05:09 +08:00
玩爬虫可以,先了解一下判几年
|
44
96412hj 2022-02-23 16:49:39 +08:00
很刑,我看刑
|
46
aino 2022-02-23 16:59:45 +08:00
逆向只能在小圈子交流,这里不适合提问。
|
48
Te11UA 2022-02-23 17:16:37 +08:00
@ElegantOfKing #32 想问问是哪个博主呢?
|
49
westoy 2022-02-23 17:17:16 +08:00
@sgq1128
这个倒真不是, 京东一样防爬虫的, 最早十几年前价格什么的都是用图片生成的, 刘强东当年还公开把做返利导流的比作是劫道的, 只是后来心态变了吧..........现在频繁访问也会强制登录的, 不同帐号阈值可能不一样, 只是楼主爬的那块应该没覆盖...... |
50
IBN5100 2022-02-23 17:18:18 +08:00
总有错觉公开信息随便爬
|
51
SoulClinic OP 总结:三思而后行...
怀念 牛顿 /达芬奇 /图灵 他们,给我们分享那么宝贵的知识一分钱都没要 |
52
SoulClinic OP 刚也提到了,这个 海豚选房,yfbudong.com 里有大部分阿里那边的房产数据,难道他们有合作?
是不是不同种类的数据不一样,“房产拍卖”是公开的,是个特殊情况? 就好像有些考试是特殊情况“开卷”的。。。 |
53
playniuniu 2022-02-23 19:04:20 +08:00
@SoulClinic 别听客户的,这个事情很多时候连律师说了都不算,不是公开信息就可以随便爬的,尤其人家有反爬措施,妥妥的破坏计算机系统。爬虫这种现在是判罚重灾区,偷偷做可以,公开出来,风险还是相当高的。
|
54
Senorsen 2022-02-23 19:14:52 +08:00
@ospider 都是好心提醒,等 lz 进去了就晚了。
用梯子被抓,行政处罚;写爬虫被抓,几个月甚至几年铁窗泪。不能简单的用被抓次数纬度评价,而是要综合看后果等进行风险评估。 |
55
Senorsen 2022-02-23 19:17:09 +08:00
另外,参考 :
https://www.zhihu.com/question/291554395 (随便 Google 来的) 一般认为,对于“明显反爬”的网站,则不能爬,否则必定踩红线。所以像淘宝这种,肯定爬不得了。 |
56
miyunda 2022-02-23 19:25:39 +08:00
楼主啊,你去海淀法院网站搜索下,有惊喜,狱友爬的很多都是公开的信息
|
57
ragnaroks 2022-02-23 19:29:16 +08:00
说实话不知道爬淘宝能判多久,但是传奇发布站可以坐 5 年
|
58
wyx119911 2022-02-23 19:35:10 +08:00
robots.txt 了解一下? robots 声明是具有法律效力的,有很多案例。
|
59
9c04C5dO01Sw5DNL 2022-02-23 19:37:47 +08:00 5
大家别劝了,劝就是当人发财路。楼主意思是其他人没被告,他也不会被告。上次见胆大还自负的,已经出来了还写了心得体会。
|
60
westoy 2022-02-23 19:45:40 +08:00
@SoulClinic
你举例的这家背后是家新三板公司, 整个公司股东构成里有非常多创投圈的人, 这种行业背景路子野的很 https://apps.apple.com/us/app/%E8%8D%B7%E9%B2%81%E6%96%AF%E5%8F%B8%E6%B3%95%E6%8B%8D%E5%8D%96%E6%95%B0%E6%8D%AE/id1555004602 他家产品之一, 明目张胆告诉你数据来源自哪些平台, 你觉得是爬来的概率有多少? |
61
SoulClinic OP @giiiiiithub 咱的意思是别人都光明正大这样干,人类是很擅长模仿的呀,不是恶意的啊
咱也是有些意外,本想请教技术难题,结果是让咱瑟瑟发抖的善意法律提醒警告,真是悬崖勒马啊 |
62
IvanLi127 2022-02-23 20:34:42 +08:00 via Android 1
那个啥,反爬不是害你,而是救你🤣
|
63
cnrting 2022-02-23 20:36:34 +08:00 via iPhone
楼主我支持你😬
|
64
ClericPy 2022-02-23 20:48:44 +08:00 1
看了上面的帖子们... 一言难尽
大家伙故意把你帖子从敏感区往休闲带, 带不动啊 PS: 万万没想到 <黑客与画家> 会这样被 Q 到... |
65
icy37785 2022-02-23 20:48:48 +08:00 via iPhone
@ospider #36 回答你第一个问题,梯子被抓的多还是爬虫被抓的多,答案是做爬虫比卖梯子的和用梯子的被抓的多。回答第二个问题为什么唯独爬虫有这种警示,这个有两个原因,一个是梯子都知道违法,爬虫很多人不认为违法,第二个是,爬虫比卖梯子判得还要重,但是对做爬虫的重视比卖梯子要差太远了。
|
66
SoulClinic OP @ClericPy 你是不是说反了?是把我的“技术交流”的休闲贴带到了“法律坐牢”的敏感贴啊。。。
|
67
justs0o 2022-02-23 21:07:42 +08:00
@SoulClinic
1 、阿里有一个威胁情报库,里面几乎囊括了市面上的代理 IP 2 、阿里网页内嵌了 SDK ,会收集数据 3 、AI 会根据 2 的数据和算法,对你进行打分判断,恶意用户就会弹验证码 |
68
zhw2590582 2022-02-23 21:10:49 +08:00 1
楼主认为:别人很多都是这样爬的,也没有被抓进去,为什么偏偏说我
|
69
ClericPy 2022-02-23 21:12:01 +08:00
@SoulClinic 他们也是想让你及时刹车吧, 有些灰色的东西不宜在公开场合讨论, 顶多一些小圈子群里交流讨论
除了法务问题, 也可能会影响灰产饭碗吧. 参考当年搜狗那个直接把公众号临时链接转永久链接的漏洞, 有个好心人直接开源丢到 Github 了, 估计被相关人员看到, "仅用了不到半年"就把漏洞补上了, 然后不少灰产成本直接起飞了 简单的说, 反爬本身就是人家表态的合理合法的行为, 无视君子协议本身就不太好, 公开讨论不管什么结果(给对方带来损失, 或者对方及时止损), 总有一方不开心的 现在找工作都尽量避开逆向和灰色的了, 又不是无路可走没必要冒一些没必要的风险 言尽于此且行且珍惜吧 |
70
gamexg 2022-02-23 21:15:10 +08:00
|
71
9c04C5dO01Sw5DNL 2022-02-23 21:19:46 +08:00
@SoulClinic 你跟我这么解释没用,看看那些已经被判的是不是在公堂上也这么解释的,是不是也有用。
|
72
vone 2022-02-23 21:23:43 +08:00
淘宝的反爬有个办法:用 hosts 文件把淘宝的域名强制指向到其他省份服务器上去。
这个原理是 ip 本来是就近分配的,你强制指定后,你访问的目标服务器整个可能就你一个是你所在省份的,你的这点数据量会被其他流量淹没,不会识别到你。 |
73
SoulClinic OP @zhw2590582 这是咱的处女爬啊( 4 年前买了本《用 Python 写网络爬虫》还没看),之前也没去关注了解,这是本能反应哈
@ClericPy 是的,现在咱会三思而后行,总不能玩出事来啊😹。不过疑惑大家都没有谈到“房地产”领域,爬虫领域是可以一概而论的吗?估计程序员(包括咱)大都对房地产没兴趣~ |
74
SoulClinic OP 《爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?》: https://v2ex.com/t/666057
|
75
SoulClinic OP 网上搜了一下,没有这里大家说的那么恐怖,不过大都是 2019/2020 年的,是不是这几年对爬虫的法律管控越来越严格了呢?
https://www.zhihu.com/question/291554395 |
76
nziu 2022-02-23 23:01:20 +08:00
|
77
billly 2022-02-23 23:56:54 +08:00
加油,放手去做吧,反正大家劝了这么多,你还是这种态度
|
78
2MO 2022-02-24 01:32:16 +08:00 2
别管那么多,自己爬爬能怎么刑。要说刑的,你们这群翻墙的才是真的刑,不知道能进去几次了
|
79
NXzCH8fP20468ML5 2022-02-24 02:07:14 +08:00 via Android 2
@2MO 主要问题是,翻墙本身并不涉及明显利害关系,所以暂时来说还比较安全。
爬虫不一样,有明确的侵权方和被侵权方。被爬方有足够的利益和动机将爬虫作者送进监狱。 如果哪一天,查处翻墙服务被委托给某个公司,这构造了明显利害关系,那翻墙真的的是岌岌可危。 |
80
docx 2022-02-24 03:04:29 +08:00 via Android
OP 本来是想讨论技术问题的,万万没想到众网友的思想觉悟都很高。
建议:还是找个专门的论坛吧。 |
81
icy37785 2022-02-24 08:51:48 +08:00 via iPhone 1
@2MO #75 不懂法可以闭嘴,别张嘴就来,用梯子翻墙一般都是行政处罚,就是签保证书和罚款完事,罚款也低,爬虫是刑事案件,真判下来基本上就是半年起跳了。
最怕的就是你们这些人,所以总有人被抓的时候都不知道自己怎么就被抓了。 |
82
shaojz2005 2022-02-24 08:57:53 +08:00
讨论技术问题的,上面很多人说了,淘宝的反爬很难绕过去,要绕过去可能需要花费成本来形成更多的”自然用户行为“。
其他公司的网站有这些信息,你也不知道具体是怎么来的,有可能真的是合作,也有可能爬了,但是对方有法务团队能应对这样的风险。 听你的意思,你是外包帮客户开发小程序来爬资源,找外包的客户会具备强大的法务团队吗?即使有,万一真的被告了,客户会帮你打官司吗?当然一般情况下被告入刑的可能性也没那么大。但你在公开论坛讨论这个东西,留下的痕迹就太多了,真被人注意上也不奇怪的。 |
84
winglight2016 2022-02-24 09:03:28 +08:00
做爬虫百分百违法,特别是,作为公司行为时。所以,不管这种岗位给多少,我是绝不考虑的,因为以前已经有过判例,程序员作为实现者,也会被判刑——在此之前,的确是可以作为“菜刀”免责。
淘宝这个滑块,我只要访问天猫店就必定出现,提示使用了 VPN——跟本地是否开了 VPN 无关,我猜测办公室网络出口有 VPN 之类的设备。 |
85
wowbaby 2022-02-24 09:21:53 +08:00
淘宝,天猫我正常访问都难,
|
86
RickyC 2022-02-24 09:30:00 +08:00
天热,开空调呀。
怕怕虫,加验证码呀。 |
87
RickyC 2022-02-24 09:31:16 +08:00
|
88
zjddp 2022-02-24 09:31:29 +08:00
挡人财路如杀人父母,楼上一众老哥请适可而止
|
89
RickyC 2022-02-24 09:37:34 +08:00
看错了。以为你是反爬虫,没想到你是黑客。
你这个,我想到 3 个解决方案: 方案一:雇人人工爬;如果你是盖茨,花个几千亿美元,雇个几亿人,应该能解决; 方案二:收购京东或阿里巴巴,让他们把数据交给你; 方案三:研究高级 AI 技术,模拟人类动作,破解验证码; 一般来讲,五百年内这个问题是有可能解决的。 |
91
zjddp 2022-02-24 09:41:28 +08:00
@RickyC 劝了快 90 楼了你看 op 有收手的意思吗?还是说我理解错大家的初衷,只是为了给 op 以外看到帖子的人做普法教育?
|
92
JieGaLee 2022-02-24 09:47:40 +08:00
在这问一问各位,之前的工作中有写爬虫,并且现在爬虫还在公司部署着(但是具体的部署、定时、存储之类的的不是我管,我只负责写 spider 文件),这种情况下我要怎么规避法律风险。
|
94
wensonsmith 2022-02-24 09:52:35 +08:00
爬虫写得好,牢饭吃到饱
|
95
qsnow6 2022-02-24 09:54:07 +08:00
没事,去爬嘛
|
96
itechnology 2022-02-24 09:58:13 +08:00
大家还是别劝了,反正这么多人都劝他,楼主还是认为可以爬,自己不会那么倒霉被抓
|
97
ElegantOfKing 2022-02-24 10:01:26 +08:00
@Te11UA 必须亚一爬啊
|
98
xqk111 2022-02-24 10:06:58 +08:00
瑟瑟发抖
|
100
cyrbuzz 2022-02-24 10:20:19 +08:00 1
君子不立于危墙之下。
|