1
germ 2013 年 6 月 6 日
jsoup可以看下
|
3
zoran 2013 年 6 月 7 日 |
4
tititake 2013 年 6 月 7 日
用过这个 http://nekohtml.sourceforge.net/ 不知道是不是最方便的。
|
5
TheMan 2013 年 6 月 7 日 via Android
嗯,正则写的话有些麻烦,可以看这个例子,不错
|
6
TheMan 2013 年 6 月 7 日 via Android 可以看下这个例子:http://usejava.iteye.com/blog/724177
ps:正则表达式熟练掌握了的话,好处多多 |
7
jjlovegrape 2013 年 6 月 7 日
LZ可以考虑用Node + jsdom插件 + jquery,处理Html应该会方便一点。
|
8
Linxing OP @jjlovegrape jquery不懂啊,jsoup可以做简单的处理,昨晚写完已经把 http://udpwork.com 上面的文章都爬完了,但是感觉处理的不太好,换一个网站就要改蛮多内容的吧,还要努力
|
10
ttskym 2013 年 6 月 9 日
jsoup+正则。http://www.open-open.com/jsoup/
|
11
seeker 2013 年 6 月 9 日 @jjlovegrape 如果dom有地方由javascript生成的,jsdom就不行了。用phantomjs可以完美解决。
|
12
jjlovegrape 2013 年 6 月 9 日
@seeker good,感谢分享。taobao好像用Node写过一个页面自动化测试工具,猜测是不是基于类似的?
|
13
seeker 2013 年 6 月 9 日
@jjlovegrape 不清楚哎。不过phantomjs跟node不是一回事哦。
|
14
code4craft 2013 年 6 月 9 日 可以使用jsoup,或者htmlcleaner(可用xpath)。一定程度的智能化的也可以做到的,标题可以直接用<title>标签加上后缀去重,内容可以用readability技术(http://en.wikipedia.org/wiki/Readability)。我写过一个爬虫框架,其中有比较粗糙的readability实现(https://github.com/code4craft/webmagic/blob/master/webmagic-core/src/main/java/us/codecraft/webmagic/selector/SmartContentSelector.java)。这里有篇博客,关于如何使用的:http://my.oschina.net/flashsword/blog/136846。感兴趣的可以一起改进一下。
|
15
Linxing OP @code4craft 谢了!写的不错
|