V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
yurman
V2EX  ›  程序员

请教一下爬虫技术

  •  
  •   yurman · 2024-03-05 10:23:12 +08:00 · 4490 次点击
    这是一个创建于 374 天前的主题,其中的信息可能已经有所发展或是发生改变。

    淘宝的生意参谋,这种平台为啥有全网各平台的数据,甚至还可以看竞争对手的数据。。。 我用 rpa 试过模拟人的操作去获取,效率低不说还经常会被封号。它们这种平台是如何做到不会被封号,还能实时更新最新数据,这是怎么做到的?

    20 条回复    2024-03-05 17:53:23 +08:00
    ZnductR0MjHvjRQ3
        1
    ZnductR0MjHvjRQ3  
       2024-03-05 10:24:58 +08:00
    你难道就没想过 有 openAPI 吗?
    securityCoding
        2
    securityCoding  
       2024-03-05 10:27:22 +08:00
    买的数据
    ZSeptember
        3
    ZSeptember  
       2024-03-05 10:27:31 +08:00
    应该是互相爬的吧。
    前段时间还有新闻,京东的爬虫被 pdd 屏蔽了。https://36kr.com/p/2610860492414852
    ZSeptember
        4
    ZSeptember  
       2024-03-05 10:28:10 +08:00
    爬虫是有技术的,淘宝的听说就挺难搞的。
    yurman
        5
    yurman  
    OP
       2024-03-05 10:33:24 +08:00
    @Motorola3 有猜过是走接口,老板不知道哪里看的别人说是用啥爬虫技术实现的,我觉得不可能有这样的能够大量爬取还能防封
    yurman
        6
    yurman  
    OP
       2024-03-05 10:34:37 +08:00
    @ZSeptember 淘宝是很麻烦,已经是低量数据爬取,完全模拟人为操作。偶尔还是能触发警告
    BeiChuanAlex
        7
    BeiChuanAlex  
       2024-03-05 10:38:51 +08:00
    很简单,买数据,给钱就能办到。你陷入到了技术的思维漩涡,线下花钱可以办到线上花大力气都办不到的事情。
    yurman
        8
    yurman  
    OP
       2024-03-05 10:52:34 +08:00
    @BeiChuanAlex 我是觉得是没有啥技术能做到,可惜我只是个打工仔,老板不信 :(
    wanniwa
        9
    wanniwa  
       2024-03-05 10:59:27 +08:00
    有的公司是专门成立爬虫组,立项去攻克研究的。投入成本就会有收获。一步步去拆解剖析
    DT27
        10
    DT27  
       2024-03-05 11:03:00 +08:00
    淘宝我真人去访问都费劲,动不动就弹验证,还经常验证失败。。。
    yahooer
        11
    yahooer  
       2024-03-05 11:08:25 +08:00
    也有第三方接口供应商 像淘宝的比如这个 www.idatariver.com/zh-cn/projects
    lilei2023
        12
    lilei2023  
       2024-03-05 11:21:02 +08:00
    淘宝这个真人访问,都经常弹,被人机器了,真恶心,
    angryfish
        13
    angryfish  
       2024-03-05 11:24:25 +08:00
    商业级爬,是需要资源的。
    你有多少个独立的 ip 地址?你有多少个用户号?
    曾经在某旅游网站做个爬友商相关的项目,光买 ip 资源就用了三百万,还不包含自己机房的 ip
    该花的钱还是得花。
    corcre
        14
    corcre  
       2024-03-05 11:29:11 +08:00
    淘宝的反爬做的挺好的(甚至能防正常用户), 目前说到低成本爬淘宝数据站立的老哥一个个都是摇头
    Blanke
        15
    Blanke  
       2024-03-05 12:51:00 +08:00
    有商业的成熟方案,很多数据公司内部都是全网怕,tb jd pdd 这些都是基操了,只要花得起升本,肯定能搞定
    Blanke
        16
    Blanke  
       2024-03-05 12:51:41 +08:00
    @Blanke 打错。有商业的成熟方案,很多数据公司内部都是全网爬,tb jd pdd 这些都是基操了,只要花得起成本,肯定能搞定
    lizhenda
        17
    lizhenda  
       2024-03-05 14:26:37 +08:00
    @angryfish 我觉得这 300w 大概率是被中间吃回扣吃掉了
    sergio948
        18
    sergio948  
       2024-03-05 14:33:01 +08:00
    我最近看豆瓣的反爬也是挺 6 的,第一次遇到,看抓包情况好像是做了加密,反正没看懂
    wanniwa
        19
    wanniwa  
       2024-03-05 15:18:51 +08:00
    @sergio948 #18 豆瓣可是以前所有爬虫新手的最爱爬的网站了。估计被爬怕了
    hackerfans
        20
    hackerfans  
       2024-03-05 17:53:23 +08:00
    淘客有 API
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3530 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:41 · PVG 12:41 · LAX 21:41 · JFK 00:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.