scrapy 爬取知乎内容，发现获取的和原网页不一样啊，请问这是什么原因？

可能是页面异步获取了其他内容，所以直接抓取看不到，其中策略比较多

有问题可以加我们的群问，这样效率更高，这个群是一群工程师组建的面向初学者的 python Linux 学习群（ qq 群号： 278529278 ）非商业性质，拒绝广告，只接收真正想学这方面技术的朋友，交流学习，申请请说明来自 v2ex

we3613040

2017 年 4 月 5 日

好多异步请求

201341

2017 年 4 月 5 日

我也以为是异步，可是禁用 js 后的页面和我获取的页面还是不一样

201341

2017 年 4 月 5 日

@zsz
@we3613040

201341

2017 年 4 月 5 日

@sleeperqp 好的，我试试．．谢谢．

googlebot

2017 年 4 月 5 日 via Android

javascript ，

fffflyfish

2017 年 4 月 5 日

直接抓现成的 json 包，伪装客户端发包

killerv

2017 年 4 月 6 日

你说的原网页是指的网页源代码还是审查元素？审查元素的代码是经过 js 渲染过的，不一样是很正常的，这个要以网页源代码的为标准，如果网页源代码和爬虫爬的不一样，另说，有可能是防爬。

201341

2017 年 4 月 6 日

@killerv 网页源代码不一样．．．主要是一个 css 文件不一样，结果导致我写的 xpath 和 response.css 全部为空．．．这种是防爬吗？

killerv

2017 年 4 月 6 日

@201341 应该是防爬了，防爬一般来就是根据 header 和 cookie 下文章，再有就是根据 ip 频率

201341

2017 年 4 月 6 日

@killerv 不是防爬，还是 js 问题，我用 selenium+Phantomjs 成功解决．

killerv

2017 年 4 月 6 日

@201341 如果是 js 问题，那么网页源代码和你抓取的应该是一样的，你用 Phantomjs ，还是因为有些 dom 是 js 动态生成的。