1
waytoshine OP 要入坑大数据的感觉
|
2
optional 2020-08-25 14:43:53 +08:00
count partition by
|
3
waytoshine OP @optional #2 这个应该不能拆分值来进行统计吧?只能统计完全相同的值
|
4
ipwx 2020-08-25 15:20:01 +08:00
postgres 的话试试这个:
SELECT t2.c, COUNT(t2.c) FROM <your table> AS t, regexp_split_to_table(t.<your column>, '') AS t2(c) GROUP BY t2.c; |
5
Cookieeeeee 2020-08-25 16:46:44 +08:00
用 es 做吧,mysql 搞这个太慢了
|
6
qiayue 2020-08-25 17:06:28 +08:00
10 亿条数据,显然不能只用数据库做统计,建议程序预处理
|
7
dtgxx 2020-08-25 17:16:59 +08:00
放 hive 里,用 sparksql 跑。。。
|
8
Vegetable 2020-08-25 17:43:13 +08:00
用程序做应该还可以,就是数据量太大了。
|
9
xupefei 2020-08-25 17:48:13 +08:00 via iPhone
十亿条数据只能用 spark sql 了
|