V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LUREN
V2EX  ›  问与答

提取网页数据需要,请问有什么 HTML 解析器好用?

  •  
  •   LUREN · 2020 年 8 月 2 日 · 2479 次点击
    这是一个创建于 1994 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?

    目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。

    9 条回复    2020-11-06 17:35:13 +08:00
    Jackeriss
        1
    Jackeriss  
       2020 年 8 月 2 日 via iPhone
    beautifulsoup
    ochatokori
        2
    ochatokori  
       2020 年 8 月 2 日 via Android
    可以的话用 python 吧,python 应该有不少 html 解析库
    misaka19000
        3
    misaka19000  
       2020 年 8 月 2 日
    python -> xpath
    ipadpro4k
        4
    ipadpro4k  
       2020 年 8 月 2 日 via iPhone
    各种 soup
    labubu
        5
    labubu  
       2020 年 8 月 2 日
    bs4
    csx163
        6
    csx163  
       2020 年 8 月 2 日
    这个深有感触,还是正则靠谱
    shadeofgod
        7
    shadeofgod  
       2020 年 8 月 3 日 via iPhone
    lxilu
        8
    lxilu  
       2020 年 8 月 3 日 via iPhone
    C#平衡对
    kiancyc
        9
    kiancyc  
       2020 年 11 月 6 日
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2313 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 01:05 · PVG 09:05 · LAX 17:05 · JFK 20:05
    ♥ Do have faith in what you're doing.