文章不会更新,永远只需爬取一次,所以靠后的页码就不用再次爬取。
如果抛开框架,大致的思路就是在查重的时候,重:不爬,并且后续列表不再爬,不重:爬取文章。
但是不知道怎么在 pyspider 中实现,请指教。
1
WildCat 2018-07-01 19:17:48 +08:00 1
hash function? 数学之美了解一下。别整天用这个那个框架,基础还是少不了
|
3
golmic 2018-07-01 22:03:04 +08:00 via Android
for url in urls: if url in db : break
|
4
binux 2018-07-01 23:34:03 +08:00 via Android 1
默认就是去重的
|