V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ZZ74
V2EX  ›  问与答

网页信息获取是爬虫还是 Selenium,还有图片分类库求推

  •  
  •   ZZ74 · 354 天前 · 1123 次点击
    这是一个创建于 354 天前的主题,其中的信息可能已经有所发展或是发生改变。

    举个栗子
    淘宝商品列表页面,获取名称和图片,以及每个商品详情后的其他一些信息。
    想问下爬虫框架和 Selenium 哪个更合适,不容易触发风控。

    另外想根据名称描述和图片自动分类,有没有开源或者免费的
    基于开源的 tensorflow 自己训练 AI 的话耗费太大 感觉小题大做了。

    5 条回复    2023-12-04 13:47:45 +08:00
    incubus
        1
    incubus  
       354 天前
    这也想白嫖?
    ZZ74
        2
    ZZ74  
    OP
       354 天前
    @incubus
    第一个是技术选型问题
    第二个是问一下,不确定有没有。白嫖谈不上吧
    r6cb
        3
    r6cb  
       354 天前
    还是早点放弃吧,正常用户去浏览都经常要人机认证。
    ZZ74
        4
    ZZ74  
    OP
       354 天前
    @r6cb
    不是淘宝啊 我只是举个例子 另外不是高频访问。我放到服务器上慢慢跑
    aureole999
        5
    aureole999  
       353 天前   ❤️ 1
    看你要访问的是什么网站了。有的不怎么管的你用什么都行。
    不容易触发的应该还是 Selenium 或者 Puppeteer 加 Stealth 插件。

    第二个 chatgpt api 之类的也许能做到?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   992 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 20:40 · PVG 04:40 · LAX 12:40 · JFK 15:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.