V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
wty95
V2EX  ›  程序员

网页自动化怎么攻克自动变化的验证码?

  •  
  •   wty95 · 2024-12-14 23:53:38 +08:00 · 6528 次点击
    这是一个创建于 378 天前的主题,其中的信息可能已经有所发展或是发生改变。
    51 条回复    2024-12-22 22:54:20 +08:00
    seansong
        1
    seansong  
       2024-12-15 00:38:12 +08:00   ❤️ 10
    很刑
    Ct5T66PVR1bW7b2z
        2
    Ct5T66PVR1bW7b2z  
       2024-12-15 01:17:21 +08:00
    ddddocr
    nyxsonsleep
        3
    nyxsonsleep  
       2024-12-15 01:31:48 +08:00
    直接买服务,根据难度,会比较贵。
    破解验证码本身就能赚钱,技术含量也比爬虫高,甚至可能是里面技术含量最高的内容。
    NoOneNoBody
        4
    NoOneNoBody  
       2024-12-15 01:34:09 +08:00   ❤️ 1
    gov.cn ……这个不敢碰
    adgfr32
        5
    adgfr32  
       2024-12-15 04:56:48 +08:00 via Android
    既然都 selenium 了,直接拿到页面图片文件送进 ocr 就行了,不用关心他怎么获取的。
    顺便,gov.cn 域名,你最好别搞。
    xuanbg
        6
    xuanbg  
       2024-12-15 08:11:24 +08:00
    V2 真是什么样的人才都有
    dji38838c
        7
    dji38838c  
       2024-12-15 08:42:00 +08:00
    水平越初,胆子越大
    klxyy
        8
    klxyy  
       2024-12-15 08:54:48 +08:00
    GOV.CN 你也敢弄,果然很刑
    Leofits
        9
    Leofits  
       2024-12-15 08:56:11 +08:00 via Android
    很刑很可拷
    hanssx
        10
    hanssx  
       2024-12-15 09:07:49 +08:00
    兄弟,这个 uuid 要是根据客户端生成的,你有点自我暴露了就
    csulyb
        11
    csulyb  
       2024-12-15 09:28:27 +08:00   ❤️ 1
    你想想为啥人家要弄一下验证码? 本来可以不用弄验证码的,就是因为楼主这样的憨憨 进去太多了
    shadowyue
        12
    shadowyue  
       2024-12-15 09:30:59 +08:00
    很刑,出来了给大家讲讲里边的生活
    vevlins
        13
    vevlins  
       2024-12-15 09:40:35 +08:00
    爬虫把政务网站搞挂被判刑的事你是没听说过?
    huage
        14
    huage  
       2024-12-15 09:42:29 +08:00
    肉身在国外随便搞,在国内老老实实。
    fanhaipeng0403
        15
    fanhaipeng0403  
       2024-12-15 10:20:53 +08:00
    疯了吧你。
    sir283
        16
    sir283  
       2024-12-15 10:50:23 +08:00
    一、找打码平台,租接口。
    二、逆向网页 js ,尝试绕过对应逻辑,使其拿到对应的算法与出入参数,模拟 success 请求。类似中间人。
    三、黑掉对方服务器,直接提取数据。
    四、自己训练 ocr 模型。
    五、放弃。
    TArysiyehua
        17
    TArysiyehua  
       2024-12-15 10:54:54 +08:00
    提供技术咨询,有意联系
    paopjian
        18
    paopjian  
       2024-12-15 11:17:42 +08:00
    爬政府网?你在想什么呢
    sampeng
        19
    sampeng  
       2024-12-15 11:21:15 +08:00 via iPhone
    刚看完新闻,年底了进去一堆爬虫小子…我还想哪来二的猛人爬个网站把自己送进去。这不就看到,有哥们急着进去吃年夜饭。
    gjw8u8
        20
    gjw8u8  
       2024-12-15 11:52:52 +08:00 via Android
    这个牛逼
    Lukedis
        21
    Lukedis  
       2024-12-15 12:20:08 +08:00
    狠人大帝都没你狠,怼着政府网站爬
    ggabc
        22
    ggabc  
       2024-12-15 12:27:30 +08:00 via Android
    注意原则
    kele999
        23
    kele999  
       2024-12-15 12:35:28 +08:00
    不要犯罪
    Liftman
        24
    Liftman  
       2024-12-15 13:04:42 +08:00
    你好,已将您的行为投递到对应网信办。
    opengps
        25
    opengps  
       2024-12-15 14:35:58 +08:00
    爬虫不爬 gov 这是底线
    suhu
        26
    suhu  
    PRO
       2024-12-15 14:38:41 +08:00
    @opengps robtos.txt 没有禁止的呢,一天只读一次的呢,这种大家没有接触过吗
    raycool
        27
    raycool  
       2024-12-15 14:46:20 +08:00
    这种验证码没难度,但是这类网站很刑
    opengps
        28
    opengps  
       2024-12-15 14:54:28 +08:00
    @suhu gov 级别比 robtos.txt 制定者的级别要高,所以在 gov 眼前一切更低标准都不适用
    Y25tIGxpdmlk
        29
    Y25tIGxpdmlk  
       2024-12-15 15:01:27 +08:00
    目测这个验证码没什么难度,用 10 年前的打码技术都能轻松搞定,更何况现在有些 AI 识别和人工打码了。

    还有,验证码哪个不是随机变化的,我还以为是那种 GIF 的动态验证码呢
    et5494
        30
    et5494  
       2024-12-15 15:27:17 +08:00
    0 难度,但是不敢
    guanhui07
        31
    guanhui07  
       2024-12-15 16:47:33 +08:00
    果然很刑
    TophTab
        32
    TophTab  
       2024-12-15 17:30:06 +08:00
    GOV ?老哥干的是体制内的活?
    我只知道以前大学老师会去干这个
    EndlessMemory
        33
    EndlessMemory  
       2024-12-15 17:40:00 +08:00
    截图识别啊
    wzblog
        34
    wzblog  
       2024-12-15 18:08:49 +08:00
    放过自己吧,你看他验证码连基本的干扰都不做,随便识别的。搞 gov 很容易吃国家饭的。
    42V0CdLjCU494ogF
        35
    42V0CdLjCU494ogF  
       2024-12-15 19:59:34 +08:00
    大把这样的服务商,比如 https://www.jfbym.com/
    非要自己写的话用 OCR+AI 自己调教一下也够了
    dbow
        36
    dbow  
       2024-12-15 20:23:52 +08:00
    建议不搞,政府的网站,你也知道的,性能不可能很好,万一被你刷崩了,估计要吃牢饭。
    Ackvincent
        37
    Ackvincent  
       2024-12-15 20:47:58 +08:00
    直接买服务,不要再验证码上折腾,掉服务商的 API 就行了。
    GBdG6clg2Jy17ua5
        38
    GBdG6clg2Jy17ua5  
       2024-12-15 20:49:13 +08:00
    即使你可能是某个地市或者啥的供应商,但是你用爬虫把省数据局的网站搞崩了,作为维护系统的乙方,为了能继续拿到这个项目,他们肯定想方设法甩锅,然后你一定会揪出来。然后恭喜你,你可能得进去了。
    isSamle
        39
    isSamle  
       2024-12-15 21:57:20 +08:00
    https://www.jszwfw.gov.cn/jsjis/component/verifyCode.do?code=4&random=0.41377034550816183
    通过随机数后端计算返回验证码图片,上 OCR 吧
    chenzi0103
        40
    chenzi0103  
       2024-12-16 09:09:57 +08:00
    给到 llm 识别就好了 用个好的 llm 模型
    shangfabao
        41
    shangfabao  
       2024-12-16 09:17:37 +08:00
    selenium +ocr,ocr 用的第三方库 搞过
    wty95
        42
    wty95  
    OP
       2024-12-16 09:36:55 +08:00
    @seansong 各位老哥 我不是爬数据的,这个是政府公开中介超市,每天有项目可以报名,摇号中了就做业务,每天一堆报名,根本没精力手动填,所以想自动化报名。

    请问这个也违法么?
    zengxs
        43
    zengxs  
       2024-12-16 09:48:41 +08:00
    @wty95 重点不是爬数据,而是你这种行为很容易把网站搞挂
    gov 网站大多数本身就做的很垃圾,手动刷刷都有可能挂了,但是你手动刷的他也不能甩锅给你
    如果是被你程序刷挂了,恭喜你喜提破坏计算机系统罪
    xuhuanzy
        44
    xuhuanzy  
       2024-12-16 09:58:39 +08:00 via Android
    @wty95 他崩了只要查到是你的流量异常,你就百分百入狱。
    lanten
        45
    lanten  
       2024-12-16 10:03:38 +08:00
    有趣的,看到 gov 就吓到腿软
    GBdG6clg2Jy17ua5
        46
    GBdG6clg2Jy17ua5  
       2024-12-16 11:07:06 +08:00
    @lanten 有时候是百口难辨的。比如前几年的美国一位安全教授通过查看 html 页面获得几位老师的社保号码,被认为是黑客攻击。
    securityCoding
        47
    securityCoding  
       2024-12-16 15:10:32 +08:00
    兄弟,有些内部的爬虫自动识别 gov.cn 关键词 return 掉。。。
    yuchen198
        48
    yuchen198  
       2024-12-16 16:34:33 +08:00
    gov.cn 确实那啥最好别碰,我当时爬了药品监督局几万条数据,不过我那是一次性的,不是每天都要
    seansong
        49
    seansong  
       2024-12-16 20:59:40 +08:00
    @wty95 你这个自动化报名,不就是典型的非法破坏和入侵计算机系统么,非常刑
    akura
        50
    akura  
       2024-12-17 11:50:43 +08:00
    先生大才
    BBBOND
        51
    BBBOND  
       2024-12-22 22:54:20 +08:00
    https://www.gov.cn/zhengce/content/202409/content_6977766.htm
    自 2025 年 1 月 1 日起施行

    第十八条 网络数据处理者使用自动化工具访问、收集网络数据,应当评估对网络服务带来的影响,不得非法侵入他人网络,不得干扰网络服务正常运行。

    第五十五条 违反本条例第十二条、第十六条至第二十条、第二十二条、第四十条第一款和第二款、第四十一条、第四十二条规定的,由网信、电信、公安等主管部门依据各自职责责令改正,给予警告,没收违法所得;拒不改正或者情节严重的,处 100 万元以下罚款,并可以责令暂停相关业务、停业整顿、吊销相关业务许可证或者吊销营业执照,对直接负责的主管人员和其他直接责任人员可以处 1 万元以上 10 万元以下罚款。

    先生请自重
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2654 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 07:50 · PVG 15:50 · LAX 23:50 · JFK 02:50
    ♥ Do have faith in what you're doing.