V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sillydaddy
V2EX  ›  程序员

想找满足这 5 个特性的低代码爬虫

  •  2
     
  •   sillydaddy · 362 天前 · 3372 次点击
    这是一个创建于 362 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 方便获取稳定的 selector 。最好可以在页面上直接选取元素,获得 selector 。
    2. 准确提取 data 。可以解析常见数据类型,如提取文本数字。也可以自定义解析脚本。
    3. 存储到指定的位置。将上述的 data 与 db 对应起来,最好可以用连线的方式,可视化的编辑 1 对 1 的关系。
    4. 构建循环的流程。爬虫一般都有循环结构,要能简单方便的构建流程,例如简单的逻辑不需要写代码。
    5. 异常的处理。如果采集过程中出错,要能够指定后续的流程。是返回上一级,还是抛出异常,还是加入到队列。

    想请问常用爬虫工具的 v 友,有没有满足这些条件的低代码爬虫工具呢?

    21 条回复    2023-11-23 08:43:51 +08:00
    veike
        1
    veike  
       362 天前
    chrome 商店搜一下
    Woood
        2
    Woood  
       362 天前
    火车头?
    KgM4gLtF0shViDH3
        3
    KgM4gLtF0shViDH3  
       362 天前
    这不是最基本的需求吗😂虽然没几个做的好的。只能自己写脚本。
    encro
        4
    encro  
       362 天前
    火车头,八爪鱼
    encro
        5
    encro  
       362 天前
    熟悉 python 就 scrapy
    JohnH
        6
    JohnH  
       362 天前
    https://github.com/ferventdesert/Hawk
    可以试试这个开源的,前几年用过,也确实解决了我当时的问题。
    虽然可视化配置,但使用上有一点门槛,需要摸索一下
    xiaoriri666
        7
    xiaoriri666  
       362 天前
    八爪鱼
    siknet
        8
    siknet  
       362 天前
    火车浏览器
    herozzm
        9
    herozzm  
       362 天前 via iPhone
    要在浏览器上还是脱离浏览器在服务端后台运行?
    sillydaddy
        10
    sillydaddy  
    OP
       362 天前
    @herozzm #9
    如果要写数据库,应该是需要脱离浏览器。如果能在浏览器中写入数据库也可以,不过这种应该还需要通过 webapi 接口。

    感谢上面各位 v 友的回复,我去看一下提到的软件。
    Soler
        11
    Soler  
       362 天前
    影刀
    yumusb
        12
    yumusb  
       362 天前
    googlefans
        13
    googlefans  
       362 天前
    爬虫 自己内部用数据还是做网站用?
    小心被告
    vimiwivv
        14
    vimiwivv  
       362 天前
    不该先考虑反爬和风控?
    shench
        15
    shench  
       362 天前
    这么多年了,还是火车头最好用,我找到一个免费的
    dabaibai
        16
    dabaibai  
       362 天前
    @shench 来个免费的 大佬。
    vvhy
        17
    vvhy  
       362 天前
    easyspider ?之前看到了,不过没用过
    shench
        18
    shench  
       362 天前
    @dabaibai 百度搜索一下高铁采集(本质就是火车头的 vvvip )
    WhateverYouLike
        19
    WhateverYouLike  
       362 天前 via Android
    https://www.automa.site/
    这个可以说非常符合
    seekafter
        20
    seekafter  
       361 天前
    automa 或者 rpa? 我在闲鱼上有做脚本的链接,做过几单
    macaodoll
        21
    macaodoll  
       352 天前 via Android
    最近正好在做一个开源的,跟你说的差不多,但是还没这么快写完
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1383 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:38 · PVG 01:38 · LAX 09:38 · JFK 12:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.