1
bazingaterry 2017 年 3 月 8 日
return book --> yield book
|
2
freestyle 2017 年 3 月 8 日
LinkExtractor 的正则写错了 r'/tag/小说\?start=\d+'
|
3
freestyle 2017 年 3 月 8 日
@bazingaterry return 也可以
|
4
freestyle 2017 年 3 月 8 日 不知道你这是不是 Python2 可能要加 u ur'/tag/小说\?start=\d+'
|
5
congminghaoxue92 2017 年 3 月 8 日
你没有加翻页功能吧,加上翻页判断。
|
7
anguslg OP @congminghaoxue92 scrapy 框架已经帮做了这个事情
|
8
nicevar 2017 年 3 月 9 日 问题出在 rules 上, callback 随便重新写个函数,不用覆盖 parse 就行了
|
9
anguslg OP @nicevar 确实是这个问题。很奇怪,我在开始使用 Rule 来爬取多页的时候,就把 callback 函数重写了,但是当时也是只能只能爬取单个页面……
|