背景
在之前公司轻微接触过 hive,es 等(之前公司是分布式,机器还不少),不过本职是抓数据入 kafka 以及部分从 MySQL,MongoDB 之类的数据库做数据处理,一般只是给研究部门用。所以对于数仓之类的操作也只是见同事用,自己操作次数为个位数,各种工具的概念也只是一知半解,我觉得这样的就称之为不会。
现公司是传统公司,在一个互联网部门,并且各种氛围个人觉得较老套,技术流程什么的相对不那么'互联网'(不过好处就是项目不那么着急,准时上下班)。所以整个公司就只有一台 linux 服务器(都用 Windows 服务器),还是我申请来的..不过没那么重要了,有的 linux 用就很满足了(来之后一直在用 windows,还不是特别习惯)。
需求
领导想要把公司各个业务的数据汇一起,做个数据仓库,短期需求就是各个业务部门从这里取数据,只取历史速度要求不高。长期希望做一些大数据应用。
数据量的话,目前业务大多使用 sqlserver 和 oracle,也没什么问题(明天问一下 dba )。大概不是很大。
想法和问题
想自己动手搭起来但是苦于几个问题:
1.有无必要用 hadoop 生态的东西,而且是单机,没必要的话我也想自己试着动手(反正项目也不急,而且之前的工作太简单了,觉得太无聊了。项目用什么技术领导也不懂也无所谓),或者有没有其他的工具?
2.一直主要用 python,java 只知皮毛,当然能借此学 java 进步一下也可。但是有没有 python 比较紧密的工具?
总之就是想用这个机会学习动手点新东西而且做好,但是这个架构什么的对我来说还是比较难,所以想得到各位大佬的建议
1
xcstream 2020-05-25 19:14:11 +08:00
玩玩可以, 单机随便装个数据库都差不多
|
2
MinQ 2020-05-25 19:22:40 +08:00
玩玩可以+1,但是现实意义不大。大数据也是一样,挺多公司都想搞大数据的,结果不是数据量少得可怜,就是数据量少得可怜的同时质量也不行,各种缺项。再说 sql server 啥的一样搞大数据啊,python 找个 driver 登上去取数据导入到 pandas 里就是了
|
3
VoidChen 2020-05-25 19:23:21 +08:00
单机意义不大。。而且数仓是一整套的东西,不是说把数据丢进去就算了。。我觉得你们要是只是一个历史数据存放而已,hdfs 直接放格式化的文件就可以了。还是那句话,hadoop 最少还是给 3 台吧
|
4
diggzhang 2020-05-25 19:31:15 +08:00
可以从 clickhouse 或 greenplum 开始?轻量搞起来试错。
|
5
limbo0 2020-05-26 02:52:53 +08:00 via iPhone
意义确实不大,单机还不如在自己机器上搭建呢
|
6
est 2020-05-26 10:33:23 +08:00
单机 hadoop 性能不如直接 grep 吧。
|
7
yellowmarlboro OP |
8
MinQ 2020-05-26 11:45:00 +08:00
@yellowmarlboro 我估计跟 SQL Server 查询速度差不多?不过我也是用的公司集群,自己电脑上只是小数据量做测试用的
|