提取网页数据需要，请问有什么 HTML 解析器好用？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1994 天前的主题，其中的信息可能已经有所发展或是发生改变。

在 Linux 服务器上，需要从几千个 HTML 文件里提取一些指定内容，请问有哪些好用的 HTML 解析器可以使用？

目前试过用 awk，但 HTML 标签太多，内容所在的地方也不相同，匹配起来很复杂。

9 条回复 • 2020-11-06 17:35:13 +08:00

Jackeriss

2020 年 8 月 2 日 via iPhone

beautifulsoup

ochatokori

2020 年 8 月 2 日 via Android

可以的话用 python 吧，python 应该有不少 html 解析库

misaka19000

2020 年 8 月 2 日

python -> xpath

ipadpro4k

2020 年 8 月 2 日 via iPhone

各种 soup

labubu

2020 年 8 月 2 日

bs4

csx163

2020 年 8 月 2 日

这个深有感触，还是正则靠谱

shadeofgod

2020 年 8 月 3 日 via iPhone

lxilu

2020 年 8 月 3 日 via iPhone

C#平衡对

kiancyc

2020 年 11 月 6 日