爬虫这一行太难了 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3189 天前的主题，其中的信息可能已经有所发展或是发生改变。

不干这一行不知道，现在我看到爬虫两个字就想吐
这玩意儿蛋疼的是需要去维护
看友商能搞为啥你不能搞？
维护代理之麻烦
你不知道哪里暴露了自己是爬虫，因为暴漏点太多了
你就想如果我是后台我怎么反你最釜底抽薪
那些用 scrapy 爬个图片爬个逼乎爬个京东评论啥的看到就烦

你们不知道我以前是个 php 后台，熟练的业务我可以飞快的搞，都是套路。。。可是自从入了爬虫坑，我 tm 从 py 到 php，自己写策略，因为根本没有可以参考的，自己编译 selenium 驱动，资源泄露，编译 chromedriver 因为绕不开 bug，搞安卓，写 chrome 扩展，自己猜友商怎么做代理方案复制，还搞出来了一些很 cool 的东西然而没暖用。。。znm 没有套路，太难了

39 条回复 • 2017-05-19 17:10:29 +08:00

1

gouchaoer

OP

2017 年 5 月 11 日 via Android

某合作的友商喜欢用 QQ，我也喜欢用 qq，他们太好了，业务熟练，问的问题很好，质疑的好，比不上别人

2

simple2025

2017 年 5 月 12 日 via iPhone

大神教我写爬虫 a

3

binux

2017 年 5 月 12 日

chrome headless 模式可以用了。直接用呗，还要什么编译。
限于工作限制，不能自己搞，不过我可以教你

4

geelaw

2017 年 5 月 12 日 via iPhone

WebDriver 啊

5

WildCat

2017 年 5 月 12 日 via iPhone

@binux 前辈，在伦敦找工作有什么经验可以分享吗

6

binux

2017 年 5 月 12 日

7

@WildCat #5 我都是想去哪就直接投的。。

7

GoBeyond

2017 年 5 月 12 日 via Android

scrapy 爬怎么了？

8

lulinux

2017 年 5 月 12 日

1

看到楼主这样的自言自语就烦

9

murmur

2017 年 5 月 12 日

都抛弃 phantom 了。。

10

lekai63

2017 年 5 月 12 日 via iPhone

所以 php 成最烦的语言？！

11

ob

2017 年 5 月 12 日 via Android

难才有市场。。

12

Messiahhh

2017 年 5 月 12 日 via Android

对爬虫的进攻比防守要难很多……

13

panyanyany

2017 年 5 月 12 日

我用代理池去爬淘宝感觉还是可以的，只要控制好一个 ip 一小时内只爬几个页面，就很少被 ban。由于代理池里有 1k+个可用 ip，所以爬取效率目前来说可以接受。

14

twm

2017 年 5 月 12 日 via iPhone

技术没啥难的难的是斗智斗勇

15

gouchaoer

OP

2017 年 5 月 12 日 via Android

@binux 你会 chromium 二次开发么？我不想搞爬虫了，能带带我么？

16

gouchaoer

OP

2017 年 5 月 12 日 via Android

@twm 我觉得你说得对，爬虫太没技术含量了，可斗智斗勇我不行啊，我没勇气又懒，人也笨

17

dongxiaozhuo

2017 年 5 月 12 日 via iPhone

4

@gouchaoer 爬虫的烦恼两件事：突破反爬，解析页面。前者基本等于：你猜，后者等于富士康员工。

18

MrFireAwayH

2017 年 5 月 12 日 via Android

@binux 活捉跳蚤巨巨😱

19

broono

2017 年 5 月 12 日 via Android

@dongxiaozhuo 卧槽了简直吐出了我的心声。目前在做 PY 爬虫 996 开发维护，有的还要自己封装成接口给人用做实时在线查询啊了个去，一个注册查询的接口要请求一两百个站真是感觉体力不支。
对了，不知道富土康招不招人😂

20

fuxkcsdn

2017 年 5 月 12 日 via iPhone

特意去翻了你的发帖记录，没错，你不就是在 v2 上发过 2 篇爬虫分享文章的作者嘛😳遇到瓶颈了？

21

sniffles

2017 年 5 月 12 日

@dongxiaozhuo 强拍这条，大实话

22

yangxiongguo

2017 年 5 月 12 日

最近在研究 Chrome Headless，有木有交流群之类的

23

herozzm

2017 年 5 月 12 日 via Android

@dongxiaozhuo 前者你猜就是去猜解网站的反爬策略，后者解析页面就是写各种正则，匹配规则，体力活

24

soulmine

2017 年 5 月 12 日

一把辛酸泪坑是数不清的

25

soulmine

2017 年 5 月 12 日

@herozzm 前面也是体力活斗智斗勇猜反爬限速你要去测阈值

26

suliuyes

2017 年 5 月 12 日

@herozzm 为什么一定要写正则？选择器和 xpath 也很好用啊。用正则超级累。

27

herozzm

2017 年 5 月 12 日 via Android

@suliuyes 有些

28

herozzm

2017 年 5 月 12 日 via Android

@suliuyes 有些场景必须正则，还有 json 的，xpath 和类 jquery 选择器不如正则方便，没有 class，没有 id，没有属性，藏的很深的 node

29

cxh116

2017 年 5 月 12 日 via Android

@panyanyany 请问代理池的 ip 是采集的？还是购买的？还是自己扫的？

30

panyanyany

2017 年 5 月 12 日

1

@cxh116 #29 以前买过 ip，但感觉有效 ip 太少，现在主要是采集为主，采集回来还要验证一下，有效 ip 虽然也不多，但好在是免费的

31

gulullu

2017 年 5 月 12 日

znm。。。。陕西人？

32

akafeng

2017 年 5 月 12 日

推荐一款云爬虫产品: https://www.zaoshu.io
我不是广告, 个人用过, 感觉很不错, 鼠标点一点就好了

33

crab

2017 年 5 月 12 日

1

@binux 你博客证书到期了。

34

binux

2017 年 5 月 12 日 via Android

@gouchaoer 调接口就够了，没必要源码层面二次开发

35

gouchaoer

OP

2017 年 5 月 12 日

@chinafeng 我看你搞了这么久，赚钱了么？能拉上我么

36

akafeng

2017 年 5 月 12 日

@gouchaoer #35 什么东西 ?

37

looplj

2017 年 5 月 12 日

其实现在的爬虫已经没什么技术难度了，有的只是资源问题。
不管怎么样，只要浏览器端能看见的，都能够爬到，像百度指数那种最麻烦的都能用 OCR 做。只是速度慢点。
其实什么策略都是没什么用的，有策略，速度就曼了，没什么用。
所以，就是堆 IP，或者帐号而已。
做到后面就没啥了，就是一些规则+流程而已

38

TonyG

2017 年 5 月 19 日

@gouchaoer 之前看过你的 PHP 爬虫文章，感觉写的太好了。又看到这篇，感觉唏嘘，这个方向确实太考验人了。你说都是自己编译 selenium, chromedriver，是现成的包有什么问题吗？另外现在有类似 Laravel Dusk 这种测试方案是否有用于爬虫的可能呢？

39

gouchaoer

OP

2017 年 5 月 19 日

@TonyG 你以为我想编译啊，出了 bug 绕不开只有上咯。。。。我 laravel 黑

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 990 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 29ms · UTC 20:14 · PVG 04:14 · LAX 12:14 · JFK 15:14
♥ Do have faith in what you're doing.