公司有一个业务,需要根据企业名,去企查查这样的网站上查询统一社会信用代码还有国标行业这样的信息制作合同文书。
量也不多,每个月大概一次性一百条左右。
之前他们的方式都是登陆几个账号,手动去查,然后记录在表格中。
现在业务人员希望能出个半自动化的工具,尽量减少人力时间。
目前看了企查查的接口,要想查国标行业,还得是个高级接口,还要企业认证才行,价格还是面议。感觉挺麻烦的。 而且公司层面,走这样购买接口或者资质认证,流程也比较麻烦。
目前考虑通过 selenium 的方式来采集,企查查网站查询到一定数量后,再让使用者手动切换账号。 在网站限制的范围内进行查询,登陆过程都是手动,只不过把人工搜索和复制信息的过程,进行代码化。
不知道这样是否存在法律风险。或者有没有其他法律风险更小的方案?
1
yyzh 2024-01-16 16:58:14 +08:00
在合规上来说爬虫就是爬虫,没有什么多与少的区别.
但是私底下嘛.企查查自己都是爬的别家的数据 https://www.qcc.com/web/cms/cm_14 |
2
qwertty01 2024-01-16 17:23:56 +08:00
selenium 大概率被封禁
一家做爬虫起家的,你还想去爬他家数据,关公门钱耍大刀 我几年之前,做过这个爬虫,当时是滑动验证码,大概几百条就被封 现在大概率 selenium 会被监测出来 我推荐你搞个自动化鼠标的工具,然后固定区域截屏,进行识别 |
3
huijiewei 2024-01-16 17:28:40 +08:00
直接做个 chrome 插件自己部署咋样
|
4
locoz 2024-01-16 17:55:06 +08:00
合理需求、内部使用、量不大,没有问题,又不是大量爬了拿去卖钱或者做竞品之类的,那就叫不正当竞争了。
|
5
kumago 2024-01-16 17:57:01 +08:00 1
RPA 慢慢跑就可以了
|
6
defunct9 2024-01-16 17:59:27 +08:00 1
puppeteer
|
7
INW017bzMfgkkYGn 2024-01-16 18:05:03 +08:00
这点量不用问,问就是人工查的
|
8
yxb9511 2024-01-16 18:08:07 +08:00
上淘宝搜企 chacha
|
9
mcV473b9u4GfJG81 2024-01-16 18:26:44 +08:00
凡事会检查你是不是机器人的地方 用屏幕回放功能 其他用自动化或是 post 请求。
|
10
ruoxie 2024-01-16 18:35:16 +08:00 via Android
RPA
|
11
QHKZ 2024-01-16 19:23:28 +08:00
puppeteer
|
12
mxT52CRuqR6o5 2024-01-16 19:29:36 +08:00
给公司省钱省事儿,给自己增加风险,别整这种操作
|
13
wolfan 2024-01-16 19:30:34 +08:00
为什么不直接爬官方呐,企查查也不过是二手信息,从工商司法各部门爬回内容后综合加工。
|
14
summerwar 2024-01-16 19:30:51 +08:00 2
那你还不如写个油猴脚本,直接打开页面的时候自动提取页面信息,提交到一个后台,这样业务员也轻松,任何反爬的措施都可以规避掉
|
15
mysunshinedreams 2024-01-17 01:20:46 +08:00
建议使用 Puppeteer ,不过也挺麻烦,搞别的网站经常换验证码的样式。
|
16
leyoumake1997 2024-01-17 09:40:55 +08:00
云 API 了解下,按次付费。
|