打算做一个针对豆瓣小组发帖内容的搜索引擎:定向一些热门活跃小组(八卦组,逼组还有你懂的),根据用户名称,标题 /内容和话题回复进行搜索,搜索结果的每一项需要包含:标题,内容概要以及话题的前几张图片(如果带有图片的话)。
初步设想是用 nodejs (或者 python )去定时爬数据,爬虫程序挂在云上,爬下来的数据包含图片都存在 MongoDB 里。因为豆瓣小组的 API 本身是开放的(详见 https://www.douban.com/group/topic/33507002/ )。
针对某个小组的话题列表,话题内容以及话题回复都是可以通过 API 获取到的。所以使用 API 爬数据而不是获取网页页面解析数据。
那么问题来了,跑这样一个程序需要多大内存以及硬盘空间?以上方案是否合理?第一次做爬虫程序,请指教。
1
ke1vin OP come on
|
2
golmic 2018-03-14 23:04:10 +08:00 via Android
需要做的话我可以提供技术支持。我的联系方式公众号 pydatame 有
|
3
ke1vin OP 我在想如果一直跑爬虫的话总有一天硬盘会满
|
4
ke1vin OP 要怎么做
|
5
isolove 2018-03-16 04:13:12 +08:00
有这样的搜索引擎就好了,继续此物搜索发帖回帖记录
|
6
an93 2018-08-19 21:37:11 +08:00
楼主 这个搜索引擎你搞出来了吗
|