刚开始用 spark,很多东西不清楚,不过时间紧迫所以来请教下。
spark 的 rdd 能不能快速合并的?我现在有 30 分钟的数据需要滑动处理。每一分钟向前滑动一次,就是说 31 分的时候,读取 30-31 分钟的数据加进去,把 00-01 分钟的数据删除,那么我设想是构建 30 个 rdd,每一分钟一个。计算的时候合并这 30 个 rdd。请问这样的操作有没有?就那个合并的操作会不会很慢?
1
cstj0505 2018-06-14 09:25:39 +08:00 1
看看 spark streaming 里面的 window 功能,不要自己去撸
再就是 rdd 是只读的,没有删除,只能新生成或者计算出来一个 |
2
VoidChen OP 顺便问下,刚看到有个分区的概念,不知能不能利用上
|
3
ywind 2018-06-14 09:27:51 +08:00 via Android
按 1 分钟分片,按 30 分钟 window 聚合。
|
4
ywind 2018-06-14 09:28:48 +08:00 via Android 1
分区概念是针对于每个 rdd 的,用不上
|
5
VoidChen OP @cstj0505 好,我去看下。关于 rdd 只读,我看到有个 cache 的方法,可以放到内存里,不用的时候释放掉就可以了
|