发觉之前的解决思路有问题,决定先爬取页面数据存入数据库,然后另外一个任务再一个页面一个页面分析内容提取数据。
存储字段包括地址来源网站,页面文字内容。
目前用 mysql 加 redis 用来 url 去重
1
GeekCourse 2019-02-03 14:56:08 +08:00 via Android
当然是直接存到硬盘里
|
2
jimages 2019-02-03 15:25:25 +08:00 1
存文件吧,mysql 做 index
|
3
yuikns 2019-02-03 15:32:35 +08:00 via iPad 1
大量文件存在一个目录下有时有效率问题。试试 leveldb ?
|
4
lynskylate 2019-02-03 16:05:06 +08:00 via Android 1
...落硬盘怎么横向扩展,数据落 mongo, redis 去重。
|
5
CSM 2019-02-03 16:42:28 +08:00 via Android
如果 URL 非常多并且能容忍重复的话,可以考虑布隆过滤器。
|
6
nicoljiang 2019-02-04 02:55:50 +08:00
Mysql 不就可以吗,百万千万都能存。。。
|
7
lengyihan 2019-02-04 11:59:42 +08:00 via Android
oracle 肯定够。
|
8
lynskylate 2019-02-04 18:14:35 +08:00 via Android 1
@CSM 布隆不会出现重复,而是有部分未爬过的 url 会认为爬过。
|
9
CSM 2019-02-04 19:43:18 +08:00 via Android
@lynskylate 噢噢你说的对,感谢感谢
|