V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
pureGirl
V2EX  ›  程序员

现在大型的爬虫项目用的是什么框架, scrapy 过时了吗

  •  
  •   pureGirl · 2025 年 11 月 25 日 · 2970 次点击
    这是一个创建于 52 天前的主题,其中的信息可能已经有所发展或是发生改变。
    14 条回复    2025-12-17 11:04:09 +08:00
    bwnjnOEI
        1
    bwnjnOEI  
       2025 年 11 月 25 日 via iPhone
    面对动态页面和抗反爬稍微复杂点的就不行了吧
    简单的网站依然可以用啊
    donaldturinglee
        2
    donaldturinglee  
       2025 年 11 月 25 日
    scrapy 一直就不是单着用的吧?没过时,但是你可以学一下 playwright
    sgld
        3
    sgld  
       2025 年 11 月 25 日
    试试 DrissionPage ?
    zonde306
        4
    zonde306  
       2025 年 11 月 25 日
    简单就 scrapy ,复杂就不用框架,直接操作浏览器

    例如
    camoufox
    patchwright
    azzzzzz
        5
    azzzzzz  
       2025 年 11 月 26 日
    未来还是直接模拟浏览器的吧
    IIce
        6
    IIce  
       2025 年 11 月 26 日
    毕业之后就没用过 scrapy 了,有自研的,也有 feapder, 还有一些就是一个 requests 脚本,可能项目不够大吧
    1018ji
        7
    1018ji  
       2025 年 11 月 26 日
    浏览器还能抓啥,APP 走起
    Toowhite7
        8
    Toowhite7  
       2025 年 11 月 26 日
    Selenium or playwright
    tim2017
        9
    tim2017  
       2025 年 11 月 26 日 via iPhone
    之前用过简数的代爬,收费还可以,以前免费提供大量知名网站的模版,现在都限制了。

    我公司网站靠爬虫每天上百 IP ,几年没更新了。
    国内互联网 V2EX 这种开放性的 web 原创数据越来越少了,都是私域平台。
    Honghe
        10
    Honghe  
       2025 年 11 月 26 日
    @tim2017 嗯,web 成荒漠了
    llsquaer
        11
    llsquaer  
       2025 年 11 月 26 日
    一个项目一个 py 还要啥 scrapy ..
    securityCoding
        12
    securityCoding  
       2025 年 11 月 26 日 via Android
    chrome cdp?
    gopo
        13
    gopo  
       2025 年 11 月 26 日
    1. 逆向协议(网页优先,APP 其次)
    2. 自研浏览器、模拟器(主要过指纹还有方便自定义)
    3. 简单网站(静态和动态的区别)随便搞
    xjiang1982154112
        14
    xjiang1982154112  
    PRO
       2025 年 12 月 17 日
    考虑真实性模拟,最简单的是 playwright ,甚至可以直接拿一个 mac mini ,操作真实浏览器(非无头);方便程度超出你的想象~~
    一般场景用 scrapy 够了
    你说的大型,如果是指数据量巨大,那其实爬虫不是重点,手搓 python 脚本都不是问题,问题是 IP 池等各种"反-反爬"处理。
    如果指的是网站类型超多(几百几千,甚至几万种),要吗人肉堆脚本,要吗用 AI (安利一下我们的东西:猫头鹰 AI:mtywatch.com
    如果指的是"突破"难度很大,那么你重点研究的是法律风险
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2726 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 01:46 · PVG 09:46 · LAX 17:46 · JFK 20:46
    ♥ Do have faith in what you're doing.