简单的爬虫外包

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3057 天前的主题，其中的信息可能已经有所发展或是发生改变。

嗯，其实已经不能算爬虫了。因为相当于需要爬取数据的信息是手动输入的。

是这样的，我的工作中每天需要查询一些公司的信息，主要来源是大约十个政府网站的相应数据（大概就是企业信用信息系统、裁判文书网、组织机构代码中心这些网站）。然后粘帖到公司系统里面。我知道这估计是程序员最痛恨的一种工作，重复又简单。我也一样。所以我想找人帮我用程序处理这件事。

流程就是帮忙编写一个程序，当公司系统向它提交一个 get 请求的时候，请求里包含了公司全称或者执业许可证号，然后程序自动向那十个政府网站查询公司信息，然后将特定的字段返回给公司系统，并且保存一份到数据库。我知道难题在于

1.验证码。可以接入打码平台。有个别网站用滑块的需要你们帮忙想想办法：)

2.维护。网站肯定时不时就会更新的，因此我会将维护一并外包，当然，价格分开算。

3.单 IP 频率限制。这个不用担心，查询频率一般不够 1 分钟一次。

交付的时候需要提供源码。之所以发在这个节点是因为我希望是 python 写的（纯粹出于个人喜好，没有别的意思）各位觉得多少钱愿意做呢？

网站

查询

外包

公司

20 条回复 • 2017-09-07 09:12:50 +08:00

raphael008

2017 年 9 月 6 日

良心&吉利价，8888😂

guanren222

2017 年 9 月 6 日

没问题，找我吧
ahahah

laoyur

2017 年 9 月 6 日

有这样一份工作真好
想到前一阵国外的那个新闻了，自己写个自动化程序代替每天的手工劳作，然后大把时间陪老婆孩子，哈哈哈

skyleft

2017 年 9 月 6 日

10000 不算维护找我

a234712524

2017 年 9 月 6 日

@raphael008 呃……不是开玩笑的啦
@guanren222 可以联系我么，q 号看用户名

a234712524

2017 年 9 月 6 日

@skyleft 请问你联系方式多少

qq583708076

2017 年 9 月 6 日

qq 加了

mahone3297

2017 年 9 月 6 日

滑块大家是如何解决的？

wolffn

2017 年 9 月 6 日

如果 lz 能接受 nodejs 的话，可以联系我。微信同 id

PS：前百度前端，现在在 Amazon

regicide

2017 年 9 月 6 日 via iPhone

已发

carlonelong

2017 年 9 月 6 日

难点在第一条吧

regicide

2017 年 9 月 6 日 via iPhone

@carlonelong 程序员有一种疾病老是喜欢肛正面其实还是有规避方案的我至少能说出 2 种不用验证码的

zuolan

2017 年 9 月 6 日

@regicide 怎么解决，说一下大概，萌新表示不懂。主要是滑块这种验证码。

regicide

2017 年 9 月 6 日

@zuolan geetest 的破解满天飞，但是一更新你得跟着改，所以说这样一个需求如果在包了维护费的情况下突然有个版本他验证码的轨迹不好搞了就会巨亏，入不敷出。例如全国企业公示系统里不同的地区验证码的版本也不同，例如江苏的你手划的快一点都可能被吃掉，成功率低。但向 lz 这种 1 分钟 1 次的需求，可以理解为对抓取速度没有要求，你把轨迹设置成巨慢的好了。但这些还是肛正面的，绕的话就和滑块无关了。

a234712524

2017 年 9 月 6 日

非常感谢大家的回复，已经有几位联系我啦。太多人我顾不过来，各位请收下我的感谢～