请教一个 python scrapy xpath 的问题。

进行测试，利用如下规则来选取：
In [35]: Selector(response).xpath('span[@class="nav_go_next"]/a')
然后，我发现一个大概的原因，就是nav_go_next标签的父元素里面包含了两个script脚本
我能通过
In [35]: Selector(response).xpath('//div[@class="page"]/script')
来取得script标签，但是通过
In [35]: Selector(response).xpath('//div[@class="page"]/span')
就取不到span元素。

有谁碰到过类似的问题吗？求教！谢谢！

xpath

selector

response

8 条回复 • 2015-07-30 18:50:33 +08:00

imn1

2015-07-29 13:51:01 +08:00

scrapy能运行js么？
这个span是js生成的，直接从html的dom是找不到的

Mirachael

2015-07-29 14:09:51 +08:00

@imn1 原来是这样，多谢！

knightdf

2015-07-29 14:26:50 +08:00

用phantomjs+ selenium来抓吧

lakewalker

2015-07-29 15:58:33 +08:00

页码都是page.js生成的。

有个办法，你可以先从response中把var countPage = 25这一句话用正则给匹配出来，取25这个数字，然后下一页你就直接去拼url，都是有规律的
第二页： http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_1.html
第三页： http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_2.html
...

以最大page count，搞个循环然后直接用拼出来的url进行yield_request操作，就可以不用phantomjs来抓了，phantom比较慢，不过对于只有25页来，还好。

ammzen

2015-07-29 18:26:29 +08:00

握爪，最近我也在爬这些东西
不知道你是用来做什么呢😁

Mirachael

2015-07-30 18:42:43 +08:00

@lakewalker 嗯，谢谢。我大概就是按照你的思路来做的，因为我发现25是个固定值，我直接循环加到start_urls里了。

Mirachael

2015-07-30 18:43:27 +08:00

@ammzen 我就是用python的scrapy爬虫框架来做的，比较快。

Mirachael

2015-07-30 18:50:33 +08:00

@knightdf 叼！长见识了！