V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
piaochen0
V2EX  ›  问与答

使用 selenium,将人工浏览企查查进行半自动化,这个行为合法吗?

  •  
  •   piaochen0 · 2024-01-16 16:49:16 +08:00 · 2088 次点击
    这是一个创建于 368 天前的主题,其中的信息可能已经有所发展或是发生改变。

    公司有一个业务,需要根据企业名,去企查查这样的网站上查询统一社会信用代码还有国标行业这样的信息制作合同文书。
    量也不多,每个月大概一次性一百条左右。
    之前他们的方式都是登陆几个账号,手动去查,然后记录在表格中。

    现在业务人员希望能出个半自动化的工具,尽量减少人力时间。
    目前看了企查查的接口,要想查国标行业,还得是个高级接口,还要企业认证才行,价格还是面议。感觉挺麻烦的。 而且公司层面,走这样购买接口或者资质认证,流程也比较麻烦。

    目前考虑通过 selenium 的方式来采集,企查查网站查询到一定数量后,再让使用者手动切换账号。 在网站限制的范围内进行查询,登陆过程都是手动,只不过把人工搜索和复制信息的过程,进行代码化。

    不知道这样是否存在法律风险。或者有没有其他法律风险更小的方案?

    16 条回复    2024-01-17 09:40:55 +08:00
    yyzh
        1
    yyzh  
       2024-01-16 16:58:14 +08:00
    在合规上来说爬虫就是爬虫,没有什么多与少的区别.
    但是私底下嘛.企查查自己都是爬的别家的数据 https://www.qcc.com/web/cms/cm_14
    qwertty01
        2
    qwertty01  
       2024-01-16 17:23:56 +08:00
    selenium 大概率被封禁

    一家做爬虫起家的,你还想去爬他家数据,关公门钱耍大刀

    我几年之前,做过这个爬虫,当时是滑动验证码,大概几百条就被封

    现在大概率 selenium 会被监测出来

    我推荐你搞个自动化鼠标的工具,然后固定区域截屏,进行识别
    huijiewei
        3
    huijiewei  
       2024-01-16 17:28:40 +08:00
    直接做个 chrome 插件自己部署咋样
    locoz
        4
    locoz  
       2024-01-16 17:55:06 +08:00
    合理需求、内部使用、量不大,没有问题,又不是大量爬了拿去卖钱或者做竞品之类的,那就叫不正当竞争了。
    kumago
        5
    kumago  
       2024-01-16 17:57:01 +08:00   ❤️ 1
    RPA 慢慢跑就可以了
    defunct9
        6
    defunct9  
       2024-01-16 17:59:27 +08:00   ❤️ 1
    puppeteer
    INW017bzMfgkkYGn
        7
    INW017bzMfgkkYGn  
       2024-01-16 18:05:03 +08:00
    这点量不用问,问就是人工查的
    yxb9511
        8
    yxb9511  
       2024-01-16 18:08:07 +08:00
    上淘宝搜企 chacha
    mcV473b9u4GfJG81
        9
    mcV473b9u4GfJG81  
       2024-01-16 18:26:44 +08:00
    凡事会检查你是不是机器人的地方 用屏幕回放功能 其他用自动化或是 post 请求。
    ruoxie
        10
    ruoxie  
       2024-01-16 18:35:16 +08:00 via Android
    RPA
    QHKZ
        11
    QHKZ  
       2024-01-16 19:23:28 +08:00
    puppeteer
    mxT52CRuqR6o5
        12
    mxT52CRuqR6o5  
       2024-01-16 19:29:36 +08:00
    给公司省钱省事儿,给自己增加风险,别整这种操作
    wolfan
        13
    wolfan  
       2024-01-16 19:30:34 +08:00
    为什么不直接爬官方呐,企查查也不过是二手信息,从工商司法各部门爬回内容后综合加工。
    summerwar
        14
    summerwar  
       2024-01-16 19:30:51 +08:00   ❤️ 2
    那你还不如写个油猴脚本,直接打开页面的时候自动提取页面信息,提交到一个后台,这样业务员也轻松,任何反爬的措施都可以规避掉
    mysunshinedreams
        15
    mysunshinedreams  
       2024-01-17 01:20:46 +08:00
    建议使用 Puppeteer ,不过也挺麻烦,搞别的网站经常换验证码的样式。
    leyoumake1997
        16
    leyoumake1997  
       2024-01-17 09:40:55 +08:00
    云 API 了解下,按次付费。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2707 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 10:12 · PVG 18:12 · LAX 02:12 · JFK 05:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.