在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?
目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。
1
Jackeriss 2020 年 8 月 2 日 via iPhone
beautifulsoup
|
2
ochatokori 2020 年 8 月 2 日 via Android
可以的话用 python 吧,python 应该有不少 html 解析库
|
3
misaka19000 2020 年 8 月 2 日
python -> xpath
|
4
ipadpro4k 2020 年 8 月 2 日 via iPhone
各种 soup
|
5
labubu 2020 年 8 月 2 日
bs4
|
6
csx163 2020 年 8 月 2 日
这个深有感触,还是正则靠谱
|
7
shadeofgod 2020 年 8 月 3 日 via iPhone
|
8
lxilu 2020 年 8 月 3 日 via iPhone
C#平衡对
|
9
kiancyc 2020 年 11 月 6 日
|