项目主要是从一堆数据中,加工出一堆报表展示到前端页面(柱状图、饼状图、桑基图、等等)。
我这完全不知道怎么开展啊... 有做过类似项目的大佬,能指点下么?
PS 说得不是很清楚 请见谅啊,完全不熟这种类型的项目;本来这个项目是找 BI 做的,BI 不做,强拉我进来。。
1
ra1983 2019-11-20 09:53:00 +08:00 via Android
Tableau
刚从 Las Vegas 的 TC19 回来 |
3
fancy111 2019-11-20 09:59:20 +08:00
你到底是负责后端还是前端呢?后端好说啊,直接 API 数据出来,让他们处理。
前端的话,赶紧拿起文档读吧,没别的方法。 |
4
min 2019-11-20 10:00:31 +08:00
你这个后端负责数据部分么?
|
5
guxingke 2019-11-20 10:01:09 +08:00
|
8
lidongdongnk 2019-11-20 10:07:13 +08:00 1
推荐 metabase,一个开源的 bi 系统,支持 clickHouse 做数据源
写好查询语句,直接界面配置可视化就行了 |
9
pibicha OP @lidongdongnk 好的好的,我瞅瞅,感谢。我之前看的是 kylin,要先构建 cube ;我对比一下哪个更适合我
|
10
lidongdongnk 2019-11-20 11:06:48 +08:00
@pibicha kylin 我也用过,如果是做 bi,还是 metabase 更好一些,metabase 同时支持定时任务,可以设置一些条件自动发邮件给指定的人,其它的网页要引用图表也比较方便。上面有人推荐 tableau,这个功能更强一些,但是得付费
|
11
zefpe2 2019-11-20 11:08:53 +08:00
@lidongdongnk 看了一下 metabase,好像并不支持 clickhouse 哎
|
12
lidongdongnk 2019-11-20 11:15:21 +08:00
@zefpe2 肯定支持,我现在就在用,metabase 版本是 v0.34.0
|
13
srlp 2019-11-20 13:18:36 +08:00 via iPhone
本人这边的理解(不保证完全正确,仅供参考):
这里涉及到几个层面的概念: clickhouse 是一个“大数据的数据库”。 kylin 一般是数据处理流程的一部分,用于加快计算流程的,不知道能否或是否必要和 clickhouse 结合使用,其中“构建 cube”的部分就是用于加速统计的(本质其实是预计算)。 superset 是“前端”,就是提供给用户在已有数据集的情况下进行画图和搭建报表的部分。 就楼主的情况而言,应该 5 楼所说的那样,clickhouse + superset,就能搭起一个普通用户能用的系统了。 |
14
microcn 2019-11-20 13:47:13 +08:00
有钱直接 Tableau,没钱就 Echatrs 画起来。
|
15
pwrliang 2019-11-20 14:42:43 +08:00 1
我在某公司数据部门,以架构的角度描述下吧。
1. 数据抽取业务数据( mysql、kafka、日志等)入数据仓库( Hive ):这一步平抽,不作处理 2. 数仓建模:将上一步的 Hive 表做一些加工、清洗、关联也就是 ETL (具体参考数仓建模) 3. 搭建 OLAP DB (如 Presto、Impala、Kylin 等),用来查询第二步加工过的数据 4. BI 应用(报表、图表等)拼 SQL,扔给第 3 步 OLAP DB 查询,然后将查询到的结果显示在页面上(可以自己开发也可以用开源的) |
16
pibicha OP @pwrliang 对,我这流程应该也是这样。1、2 步有数据分析师来做, 第 3 步搭建 olap 引擎已经有人做好了, 第 4 部 BI 拼 SQL,目前是让我来;然后查完数据给前端, 第 5 步前端用 echart 展示。
问题是第 4 步拼 SQL, 我觉得是数据分析师来搞.......... 这种系统不会拼 SQL 的后端,要我有何用.. |
17
pibicha OP @srlp 是的, 我这应该不用 superset 了。前端展示的时候有专门的前端工程师来搞。 后端只用 clickhouse 就行了。
|
19
fireapp 2019-11-20 16:55:57 +08:00 via iPhone
bi 平台有很多功能的,需要 web 跟前端来做
1. 你得接入用户系统吧,权限管理之类的 2. 数据展示有各种提前跑好的各种报表数据,得有分门别类目录菜单吧,还有简单的时间或其他维度过滤 3. 即时查询的,也要根据各种数据类型,提供各个维度查询,在页面上就是各种下拉列表,选择框,输入框之类的,逻辑上就是拼 sql,总不能让客服啊,领导啊,运营啊直接写 sql 吧 4. 用户自定义脚步啊,各种定时配置啊,然后把结果发邮件之类的 5. 各种数据的提前预热啊,之类的太多了,就是一个以数据为主的后台系统 |
21
levelworm 2019-11-22 05:08:59 +08:00
这不就是 BI 么?首先分析需求,就是看有啥报告要出的,然后 ETL 进数据库做数据仓库,最后接 Tableau 或者 Power BI 出报告。Clickhouse 不熟,也许能够直接拿来用?我记得它本身适合做 OLAP。
Tableau 的话可能需要 ODBC Driver,Power BI 查了下应该也是如此。 这活可是我梦想的活,可惜没机会做。 |
22
levelworm 2019-11-22 05:12:27 +08:00
DWH 的话 PostgreSQL 怎么样?这也是免费的,不过不知道你们数据量,以及原先存储在哪里。
|
23
levelworm 2019-11-22 05:17:56 +08:00
@fireapp 同意,基本上这种系统都是两部分,一部分是 Monitoring 性质的,直接做成 Dashboard,如果效率不够高就要想办法预先 aggregate 等等。还有一部分是 Analysis 性质,其实不应该是楼主管,其他部门应该有 BA/DA,但是需要楼主做好数据仓库,否则查询起来要死了。
|
24
pibicha OP @levelworm 我可能真不是这个领域的。。。 除了 BI 和 ETL 其他都没看懂(实际上我之前连 BI 和 ETL 是啥都不知道)
|
25
levelworm 2019-11-22 22:57:47 +08:00
@pibicha 我也不是 BI 的,是 BA。。。不过经常和他们接触就是了。你要出报表的话,肯定有需求对吧,有了需求就知道大体上目前的数据行不行了。因为很多时候原始数据查询起来特别麻烦,效率很低,所以这时候就要做成 OLAP,然后再写查询,最后进可视化软件。但是具体怎么做我也不懂,而且我印象中 Clickhouse 本身就是 column-based,适合做数据仓库,所以弄不好不怎么需要处理?
|
26
levelworm 2019-11-27 05:12:34 +08:00
|