跟朋友闲聊突然想到,因为是做数据分析的,对底层引擎就不太懂啦。
比如,980pro 4 条组 raid 0 ( YouTube 上有视频,https://www.youtube.com/watch?v=OCGguruZyrw&t=413s 甚至直接 256G 内存,拿 120G 内存当硬盘(一时之间忘了这个名词)
用 mysql 或者 clickhouse,对比 spark 、presto 等,会存在前者更快的可能吗?
1
paopjian 2021-10-13 17:32:12 +08:00
这要干的活都不是一个事吧
|
2
NeezerGu OP |
3
clf 2021-10-13 17:49:11 +08:00
mysql 是关系数据存储。
clickhouse 是数据列存储,以列做统计分析。 spark 是计算引擎(分析工具),数据存储是 HDFS ( Hadoop 模块)。 |
4
misaka19000 2021-10-13 17:53:23 +08:00
快,指的是查询快,还是写入快,还是分析快,还是计算快
|
5
NeezerGu OP @misaka19000 查询快,
粗暴点假定不需要 join,100G 表进行 group by 的 sum 、avg 运算 |
7
NeezerGu OP @leonme 对这方面确实不够敏感 doge,我看了下一个现成的表,9 个字段(没有很长的文本字段),一天大概 300w 行,200M,要不就以这个为例?
那大概就是 150000W 行 |
8
billlee 2021-10-13 22:29:40 +08:00
clickhouse 和 mysql 不是一个类型的啊,clickhouse 针对查询建表,比 spark 快是没问题的吧?
|
9
Jooooooooo 2021-10-13 22:53:06 +08:00
做什么事快?
|
10
noqwerty 2021-10-14 01:53:49 +08:00
ClickHouse 和 Spark 还能勉强比一下,MySQL 跟这两个真不是干一个活的: https://h2oai.github.io/db-benchmark/
|
11
noqwerty 2021-10-14 01:56:10 +08:00
这里有些 benchmark 的文章可以参考一下: https://github.com/ClickHouse/ClickHouse/issues/22398
|
13
NeezerGu OP |