1
people2net OP |
2
bcxx 2012-07-20 12:00:07 +08:00
啊!好犀利!
楼主你好,楼主再见! |
3
binux 2012-07-20 12:21:57 +08:00
siteproxy.jsp
没意思。。 |
4
people2net OP 一个简单的实现,大家可以完善
|
5
dongbeta 2012-07-20 13:05:51 +08:00
... JAVA 节点 ...
|
6
cxh116 2012-07-20 13:07:27 +08:00
本地运行就没有啥意思了 如果运行在服务器到时还不错
js解析是个大问题,直接运行个浏览器机子的配置要强 不过估计并发还是上不去 |
7
manhere 2012-07-20 13:14:01 +08:00
要抓取的东西没有id怎么办?
|
8
chairo 2012-07-20 13:31:10 +08:00
抓过来没样式没js的有啥用?
|
9
BOYPT 2012-07-20 13:41:51 +08:00
|
10
valianliu 2012-07-20 13:51:22 +08:00 1
有个Chrome插件叫Page Monitor我会随便告诉你么。。。。。
|
11
muzuiget 2012-07-20 15:48:54 +08:00
@BOYPT 不是的,抓包发现有个「siteproxy.jsp」 用服务器实现跨域取得页面内容,然后扔回浏览器用 JQuery 解析
注定抓不了需要登录的页面了,还不如直接用浏览器扩展脚本搞定,浏览器扩展脚本的xmlHttpRequest 有跨域权限。 |
12
csx163 2012-07-20 17:02:20 +08:00
支持xpath就完美了
|
13
BOYPT 2012-07-21 22:28:50 +08:00
@muzuiget 这也需要抓包么,人家源码里面写着好吧。然后这个页面是文章 http://www.gbin1.com/technology/javautilities/20120720jsoupjquerysnatchpage/ 的例子好吧。
|
14
muzuiget 2012-07-22 00:15:48 +08:00
@BOYPT 一开始没想到会去看源码吧,用 httpfox 监视一下就马上看到结果了。
好吧,确实是服务器解析抓取的内容,因为我瞄了返回的 HTML,看到 html/head 标签以及一大票内容就以为是把目标页面的 HTML 发过来了,而不是仅仅抓取的内容的 HTML。那些多余内容都是广告和统计代码。 |
15
CP9 2012-07-23 10:04:31 +08:00
这个东西怎么用啊?可以用来抓去网站的一些壁纸吗?求使用方法
|
16
xingzhi 2012-07-24 14:12:42 +08:00
请教,在抓取内容时,遇到要ajax加载才能出现的内容怎么办呢
|
17
people2net OP 那你可以考虑抓加载使用的容器
|