嗯,其实已经不能算爬虫了。因为相当于需要爬取数据的信息是手动输入的。
是这样的,我的工作中每天需要查询一些公司的信息,主要来源是大约十个政府网站的相应数据(大概就是企业信用信息系统、裁判文书网、组织机构代码中心这些网站)。然后粘帖到公司系统里面。我知道这估计是程序员最痛恨的一种工作,重复又简单。我也一样。所以我想找人帮我用程序处理这件事。
流程就是帮忙编写一个程序,当公司系统向它提交一个 get 请求的时候,请求里包含了公司全称或者执业许可证号,然后程序自动向那十个政府网站查询公司信息,然后将特定的字段返回给公司系统,并且保存一份到数据库。 我知道难题在于
1.验证码。可以接入打码平台。有个别网站用滑块的需要你们帮忙想想办法:)
2.维护。网站肯定时不时就会更新的,因此我会将维护一并外包,当然,价格分开算。
3.单 IP 频率限制。这个不用担心,查询频率一般不够 1 分钟一次。
交付的时候需要提供源码。之所以发在这个节点是因为我希望是 python 写的(纯粹出于个人喜好,没有别的意思) 各位觉得多少钱愿意做呢?
1
raphael008 2017-09-06 16:30:54 +08:00 1
良心&吉利价,8888😂
|
2
guanren222 2017-09-06 16:31:54 +08:00 1
没问题,找我吧
ahahah |
3
laoyur 2017-09-06 16:38:08 +08:00 1
有这样一份工作真好
想到前一阵国外的那个新闻了,自己写个自动化程序代替每天的手工劳作,然后大把时间陪老婆孩子,哈哈哈 |
4
skyleft 2017-09-06 16:39:09 +08:00 1
10000 不算维护 找我
|
5
a234712524 OP |
6
a234712524 OP @skyleft 请问你联系方式多少
|
7
qq583708076 2017-09-06 17:58:27 +08:00 1
qq 加了
|
8
mahone3297 2017-09-06 18:12:10 +08:00 1
滑块 大家是如何解决的?
|
9
wolffn 2017-09-06 18:17:59 +08:00 1
如果 lz 能接受 nodejs 的话,可以联系我。微信同 id
PS:前百度前端,现在在 Amazon |
10
regicide 2017-09-06 18:30:00 +08:00 via iPhone 1
已发
|
11
carlonelong 2017-09-06 18:43:39 +08:00 1
难点在第一条吧
|
12
regicide 2017-09-06 19:13:15 +08:00 via iPhone
@carlonelong 程序员有一种疾病 老是喜欢肛正面 其实还是有规避方案的 我至少能说出 2 种不用验证码的
|
14
regicide 2017-09-06 19:25:43 +08:00
@zuolan geetest 的破解满天飞,但是一更新你得跟着改,所以说这样一个需求如果在包了维护费的情况下突然有个版本他验证码的轨迹不好搞了 就会巨亏,入不敷出。例如全国企业公示系统里不同的地区验证码的版本也不同,例如江苏的你手划的快一点都可能被吃掉,成功率低。但向 lz 这种 1 分钟 1 次的需求,可以理解为对抓取速度没有要求,你把轨迹设置成巨慢的好了。但这些还是肛正面的,绕的话就和滑块无关了。
|
15
a234712524 OP 非常感谢大家的回复,已经有几位联系我啦。太多人我顾不过来,各位请收下我的感谢~
|
16
ctsed 2017-09-06 19:59:01 +08:00 via Android
天眼查那种网站?
|
17
shiny 2017-09-06 20:03:22 +08:00
记得商标查询网站就是滑块验证的
|
18
winglight2016 2017-09-06 21:29:23 +08:00
我给 LZ 提供另外一种思路:chrome 插件,选中关键字,右键菜单批量打开查询网站的页面( URL 带关键字),滑块手动,其他自动:复制、黏贴、保存成一个文件等等
|
19
hu0097 2017-09-07 08:49:08 +08:00
9999 可以来找我,有一套差不多的系统
|
20
7DLNU56W 2017-09-07 09:12:50 +08:00
验证码就是为了防爬虫的嘛,这要是这种爬虫多了的话会不会升级验证码呢,比 12306 那种更复杂的。。。
|