这两天在写爬虫 发现一个奇怪的问题
http://sinacn.weibodangan.com/user/5208916795/?max_id=3900715476612486
这个页面进去应该是
对不起,你所查看的微博用户暂时找不到,返回上一页,或者去看看其他微博。 error_code:0
上面这个是正确的
但是我用 php 的 file_get_content 获取的页面则是
用户 4813861174 转发的微博等等
这个是该网站的防爬策略吗?
1
domty 2015-10-23 17:57:38 +08:00 1
你进去看的的是 ajax 生成的
你的爬虫可能只抓取了原始页面 |
2
alexinit 2015-10-23 18:00:46 +08:00 1
爬虫爬得是原始页面,你看到的是解析过的.
|
3
ericls 2015-10-24 02:43:52 +08:00 1
你先看看请求是什么 而不是看 url 是什么
|
4
cheng007 2015-10-24 09:48:54 +08:00 1
你的爬虫不会解析执行 JS ,修改 DOM 数据
|