大家都是怎么解析抓取到的 HTML 文件的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4163 天前的主题，其中的信息可能已经有所发展或是发生改变。

有的网站没有API接口，如果要想抓取数据的话就必须解析HTML自己提取内容了。

一般来说我会直接遍历，找到特定的标签（或者字符），然后再自己提取内容。如果标签比较多的话就觉得有点烦，毕竟写起来自己也麻烦。所以想问一下有没有什么更好的方法（或者是那种脑洞大开的方法）？

抓取

提取

HTML

46 条回复 • 2014-09-10 11:00:17 +08:00

ZzFoo

2014 年 9 月 8 日

用Xpath吧

mhycy

2014 年 9 月 8 日

正则表达式

mthli

2014 年 9 月 8 日

@ZzFoo 看上去好像很不错的样子。值得一试 :)

mthli

2014 年 9 月 8 日

@mhycy 嗯，我原来是打算正则的。

paulw54jrn

2014 年 9 月 8 日

xpath, xquery , xslt 都可以~

mthli

2014 年 9 月 8 日

@paulw54jrn 嗯嗯，thx~

Automan

2014 年 9 月 8 日

有很多HTML DOM parser，用起来比正则方便多了。。

mthli

2014 年 9 月 8 日

@Automan 正是如此，主要我也懒得写正则，哈哈。

paulw54jrn

2014 年 9 月 8 日

beautifulSoup 挺方便的~

mthli

2014 年 9 月 8 日

@paulw54jrn 嗯，收下了。不过我是打算用Java。以后写Python的时候再用。

ghy459

2014 年 9 月 8 日

@mthli java 有类似 bs 的 htmlunit。

lcxseima

2014 年 9 月 8 日

@mthli java的话jsoup也算一个。都很方便。

ericls

2014 年 9 月 8 日

pyquery

scusjs

2014 年 9 月 8 日

jsoup

icanfork

2014 年 9 月 8 日 via Android

什么语言好像都有**query之类的库。

tinyhill

2014 年 9 月 8 日

node + jquery

mthli

2014 年 9 月 8 日

@ghy459 嗯，刚搜到。

neverno

2014 年 9 月 8 日

beautifulsoup

baka

2014 年 9 月 8 日 via iPhone

在用beautifulsoup之前一直都是粗暴split的

mthli

2014 年 9 月 8 日

@baka 啊哈哈哈。

ccbikai

PRO

2014 年 9 月 8 日

http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

wwttc

2014 年 9 月 8 日

正则，beautifulsoup，xpath，都可以。最方便的还是xpath

ceclinux

2014 年 9 月 8 日

nodejs可以用jsdom

refresh

2014 年 9 月 8 日

node.js + cherrio，jsdom太重了

dofaith09

2014 年 9 月 8 日

beautifulSoup

Comdex

2014 年 9 月 8 日 via Android

goquery

lightening

2014 年 9 月 8 日

Ruby 的话就用 Nokogiri (鋸).

cxshun

2014 年 9 月 8 日

xpath是最好的方案，正则的话就太麻烦了。但遇到不规范的html时，这也比较杯具了，只能先处理一下再用xpath。

txlty

2014 年 9 月 8 日

那个。。难道说拆数组，很土很落后？

mthli

2014 年 9 月 9 日 via Android

@txlty 不是呀，也很不错呀。

scola

2014 年 9 月 9 日

python + lxml

RangerWolf

2014 年 9 月 9 日

了解到有些比价软件的页面解析用的是正则~ 不过个人一直是Java + JSoup。再加上xpath的话，不知道哪个效率更高一点~

djyde

2014 年 9 月 9 日

看我V2HOT的第一个版本记录，用的是Jsoup。

https://github.com/djyde/V2HOT

ZzFoo

2014 年 9 月 9 日

对了，配合火狐的Xpath Checker插件，可以检查你的表达式选取到的结果

binux

2014 年 9 月 9 日

[如何从 WEB 页面中提取信息](http://blog.binux.me/2014/07/how-to-extract-data-from-web/)

miao

2014 年 9 月 9 日

如果是抓取到本地(win环境) 请用火车头

mthli

2014 年 9 月 9 日

@ZzFoo 嗯哼～

Yannis1990

2014 年 9 月 9 日

pyquery +1

master

2014 年 9 月 9 日

node.js + cherrio

bigtan

2014 年 9 月 9 日

bs4

imn1

2014 年 9 月 9 日

网页数量很多的话（过万），建议还是尽可能用正则吧

mthli

2014 年 9 月 9 日 via Android

@imn1 没那么多啦，最多也就10来页。

jsq2627

2014 年 9 月 9 日

正则高效，xquery 容易

jedihy

2014 年 9 月 9 日 via iPhone

最好正则，其它库会根据html构造一棵dom树，效率极低。这些厚重的库并不是用来做这种简单的html抓取

mthli

2014 年 9 月 9 日

@jedihy 嗯，了解。

mucid

2014 年 9 月 10 日

xpath，不要用正则