想利用爬虫做一个豆瓣小组发帖搜索引擎，讨论下可行性

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2882 天前的主题，其中的信息可能已经有所发展或是发生改变。

打算做一个针对豆瓣小组发帖内容的搜索引擎：定向一些热门活跃小组（八卦组，逼组还有你懂的），根据用户名称，标题 /内容和话题回复进行搜索，搜索结果的每一项需要包含：标题，内容概要以及话题的前几张图片（如果带有图片的话）。

初步设想是用 nodejs （或者 python ）去定时爬数据，爬虫程序挂在云上，爬下来的数据包含图片都存在 MongoDB 里。因为豆瓣小组的 API 本身是开放的（详见 https://www.douban.com/group/topic/33507002/ ）。

针对某个小组的话题列表，话题内容以及话题回复都是可以通过 API 获取到的。所以使用 API 爬数据而不是获取网页页面解析数据。

那么问题来了，跑这样一个程序需要多大内存以及硬盘空间？以上方案是否合理？第一次做爬虫程序，请指教。

6 条回复 • 2018-08-19 21:37:11 +08:00

ke1vin

2018 年 3 月 14 日

come on

golmic

2018 年 3 月 14 日 via Android

需要做的话我可以提供技术支持。我的联系方式公众号 pydatame 有

ke1vin

2018 年 3 月 15 日

我在想如果一直跑爬虫的话总有一天硬盘会满

ke1vin

2018 年 3 月 15 日

要怎么做

isolove

2018 年 3 月 16 日

有这样的搜索引擎就好了，继续此物搜索发帖回帖记录

an93

2018 年 8 月 19 日

楼主这个搜索引擎你搞出来了吗