最近我在做一个需求,这个需求需要用到千万级别的数据进行聚合统计做报表,这个报表的结果和前台的查询条件有关
所以我突然想起了 ES,不知道有没有老哥做过千万级别的数据进行复杂的数据聚合,这个聚合 ES 能吃的消吗?性能怎么样?能实时进行计算吗?
1
notreami 2019-03-12 00:22:47 +08:00
大数据聚合 跟 ES 有啥关系?
|
2
cnnblike 2019-03-12 02:33:46 +08:00
千万级别不算啥。
我们在用的 ES 集群,部署在 AWS 上,因为是内部用的所以有折扣, Searchable documents 数量这会在 500,000,000。过几天可能会把 data retention 放宽到 15 倍,自然数据量也会增加到 15 倍。 我觉得你与其考虑什么这个能不能吃得消。还不如考虑价格能不能吃得消。 |
3
cnnblike 2019-03-12 02:36:03 +08:00
我们组 10 台 AWS 的 EC2 在支撑这玩意儿,每台 m4.large 价格是 0.1 刀每个小时,也就是说一小时一刀,然后你自己算算吃不吃得消吧。
|
4
0312birdzhang 2019-03-12 08:22:22 +08:00
这对 es 来说简直是不值一提,毛毛雨啦
|
5
kzfile 2019-03-12 08:32:03 +08:00
多弄几个节点,啥都不是事
|
6
hotwater 2019-03-12 08:32:40 +08:00
看机器
|
8
luozhiyun OP @cnnblike 我觉得我们的数据量最多也就两千万,只不过要用这个数据进行实时计算,怕性能太差,等个几分钟才出结果,那就意义不大了
|
9
naga1003 2019-03-12 09:16:56 +08:00
千万级别基本单机就搞定了
|
10
limbo0 2019-03-12 09:44:20 +08:00 via Android
千万级别太小了…
|
11
yghack 2019-03-12 09:45:27 +08:00
千万级?单机单实例足够了。
|
12
icegreen 2019-03-12 11:18:20 +08:00
想知道楼上各位支持到了多复杂程度的聚合分析。。。
|
13
zcsz 2019-03-12 11:22:40 +08:00
千万级的应该还动用不到的 ES 吧,部门内部这样数量级的需求拿个有点老的 GreenPlum 跑,聚合起来效果非常好
|
14
luozhiyun OP |
16
airfling 2019-03-12 13:26:03 +08:00
吃的消,千万级的数据文档没啥问题的,我测试的每天 6kw 条记录,聚合查询三天内都会很快返回
|
17
bringyou 2019-03-12 13:34:34 +08:00
扛不扛得住还是看机器配置吧,我司数十亿的日志分析都是跑在 es 上的,只要配置够,别太抠就行。现在聚合查询、数据分析用 ELK 全家桶的很多,除了手写 es 查询,还可以看看 kibana
https://www.elastic.co/products/kibana |
19
luozhiyun OP @bringyou 日志系统我也有做 , 用的就是 ELK ,但是用来做聚合分析没有试过这种在大数据量下还有并发要求的实时计算的情况
|
20
notreami 2019-03-12 15:37:44 +08:00
@luozhiyun 这样问题就很清晰了,你需要的是实时大数据聚合计算。对应的不就是 stream、FlinkSQL 之类。。。
|
21
Wisho 2019-03-12 15:43:30 +08:00
讲道理,ES 的 aggregation 不是很快,也不是它的强项。以“实时”作为标准的话,当 aggregation 条件很复杂的时候 ES 还是挺慢的。
|
23
fireapp 2019-03-12 16:01:44 +08:00 via iPhone
1 亿条,每条 1k,是 10G,单机 grep 加 awk 一两分钟的事,你们为啥要搞的那么复杂? 搞不懂
|
24
liyer 2019-03-12 16:10:46 +08:00
es 搭配 kibana
完美 |
25
90safe 2019-03-12 16:13:21 +08:00
千万级别小玩意啦,我玩 ES 都是单机上亿查
|