网站跑在 AWS S3 上面不知道能否访问: https://kmppp.com
技术栈介绍和价值一个亿的核心代码开源在: https://github.com/slashbit/spider-less
至于功能,动图走起!

附上架构图

1
rayhy 2018 年 12 月 15 日
弱弱地问一下楼主有没有试过用国内的云服务商提供的类似功能(比如腾讯云的云函数)来做这件事情?
|
2
d5 2018 年 12 月 15 日 via iPhone
支持
|
3
rayingecho 2018 年 12 月 15 日
思路很棒,已 star
|
5
abmin521 2018 年 12 月 15 日 via Android
量大的话需要 MQ 吧
|
6
isCyan 2018 年 12 月 15 日
AWS 全家桶实战,支持一个
|
7
8bits OP @abmin521 Message Queue 吗?嗯,可以用 AWS 的 SQS ( Simple Queue Service ),cron 函数将需要爬的任务筛选出来后,将消息扔到队列中,scrape 函数由队列消息触发
|
8
Senventise 2018 年 12 月 15 日 via Android
建议防一下滥用,貌似可以访问墙外地址
|
9
miao 2018 年 12 月 15 日
只能爬文字?
|
10
8bits OP @Senventise 的确哈,因为爬虫访问“外网”是不受限制的...
|
12
binarymann 2018 年 12 月 15 日
不错不错,正好学习下 serverless
|
13
8bits OP |
14
tedd 2018 年 12 月 15 日
已订阅了个站的更新,谢谢分享🙏
|
15
bbmmwan886 2018 年 12 月 16 日 via Android
貌似面向国外的 不知道会不会更新中文的 英文用起来还是不太习惯😅😅😅
|
16
8bits OP @bbmmwan886 操作很简单啦 😊
|
17
landi 2018 年 12 月 17 日
网站很漂亮啊,ui 是自己设计的吗。。。
|
19
dezhou9 2018 年 12 月 17 日 via Android
有点简单啊,高中生水平,朋友。已 star
|
20
evanvane 2018 年 12 月 18 日 via Android
请问下,第二张图是怎么生成的?
|
22
8bits OP @evanvane 在这里画的: https://cloudcraft.co/
|