文章不会更新,永远只需爬取一次,所以靠后的页码就不用再次爬取。
如果抛开框架,大致的思路就是在查重的时候,重:不爬,并且后续列表不再爬,不重:爬取文章。
但是不知道怎么在 pyspider 中实现,请指教。
1
WildCat 2018 年 7 月 1 日 hash function? 数学之美了解一下。别整天用这个那个框架,基础还是少不了
|
3
golmic 2018 年 7 月 1 日 via Android
for url in urls: if url in db : break
|
4
binux 2018 年 7 月 1 日 via Android 默认就是去重的
|