Cy86 最近的时间轴更新
Cy86

Cy86

V2EX 第 316181 号会员,加入于 2018-05-14 04:55:35 +08:00
Python 爬虫并发极限是多少呢?
  •  1   
    Python  •  Cy86  •  243 天前  •  最后回复来自 Cy86
    35
    如何自学 Vue 呢
    Vue.js  •  Cy86  •  2020-02-26 13:47:43 PM  •  最后回复来自 Hanggi
    70
    从 WSL1 换到 WSL2 ,整体速度上去了, 但没法通过公网链接
    Windows  •  Cy86  •  2020-02-20 21:31:58 PM  •  最后回复来自 Cy86
    14
    光猫的 Lan 口和路由器的 Lan 口做级联,会增加带宽么
    分享创造  •  Cy86  •  2020-03-09 19:50:11 PM  •  最后回复来自 Cy86
    10
    朋友公司买了网站 1W 元,请大家看看,提些意见
    程序员  •  Cy86  •  2020-03-09 19:45:16 PM  •  最后回复来自 Cy86
    118
    用 阿里云和域名(已备案) 反向代理国外 vps 的网站 可以么
    Chamber  •  Cy86  •  2018-09-02 23:58:50 PM  •  最后回复来自 ThirdFlame
    1
    如果在网页嵌入别人的网页然后刷流量可行么
    浏览器  •  Cy86  •  2018-08-27 19:00:45 PM  •  最后回复来自 night98
    3
    Cy86 最近回复了
    @iorilu 那还是得上手干, 遇到问题处理完了之后再总结出一个通用方案, 爬虫最需要考虑的是反爬, 其他的都比较简单,没太多需要考虑的
    楼主不理我,我再捞一下, 目前我负责的爬虫抓取量每天在百万级, 月抓取量在亿级,主做舆情的
    推荐:
    百条用 requests 就行
    几十万条有时效性就 aiohttp
    同一个网站大量数据, scrapy 和 feapder 都可以
    上亿条自己开发爬虫框架
    你说的这几个问题: 访问限制, 需要登陆, 代理轮询, 执行 js, 错误重试
    访问限制, 需要登陆: 对于反爬都是针对目标单独定制的,市面上没有能包含所有反爬的的框架
    代理轮询最简单的就自己整个队列, 每次爬虫轮着取代理 ip, 对于账号绑定 IP 的,就单独开个服务针对要爬的渠道固定 IP
    执行 js 可以单独作为一个服务旁运行, 需要执行的 js 扔进去只关注返回结果就好

    感觉你可以说说你的整体目标是啥
    我觉得 requests 应该够了吧, 直接把接口抓出来比较简单,我最近也在鼓捣爬虫练手, 你这是要爬啥网站呢
    把这活儿外包出去, 嘴上说让他们手动点击(后端是爬虫), 速度别太快, 这样你就安全了
    243 天前
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @macaodoll #29 感谢建议, 目前只是突然想到了技术上的问题, 在纠结 Python 为啥并发上不去, 卡点在哪
    243 天前
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @shanyaoxingtong #31 后面接了 5 家的代理池, 每天的总请求 13 亿, qps 能达到 15K, 咱们先讨论技术再讨论代理
    243 天前
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @chengxiao #28 每错是舆情
    248 天前
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @chengxiao #26 日常监控 30 万个网站的更新, 每 5 分钟跑一次, 不需要账号和风控, 单站点请求一分钟一次都没有
    @fkdtz #42 哦哦, 我以为你用了啥放大原理, 用很小的流量大比如 1:100 打他, 我这是杀敌 1000, 自损 1000
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2708 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 05:12 · PVG 13:12 · LAX 21:12 · JFK 00:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.