公司要做个数仓，单机 hadoop 是否没什么意义，但是又想自己动手做一下。求给建议！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Apache Hadoop

› Treasure Data

这是一个创建于 2071 天前的主题，其中的信息可能已经有所发展或是发生改变。

背景

在之前公司轻微接触过 hive，es 等（之前公司是分布式，机器还不少），不过本职是抓数据入 kafka 以及部分从 MySQL，MongoDB 之类的数据库做数据处理，一般只是给研究部门用。所以对于数仓之类的操作也只是见同事用，自己操作次数为个位数，各种工具的概念也只是一知半解，我觉得这样的就称之为不会。
现公司是传统公司，在一个互联网部门，并且各种氛围个人觉得较老套，技术流程什么的相对不那么'互联网'（不过好处就是项目不那么着急，准时上下班）。所以整个公司就只有一台 linux 服务器（都用 Windows 服务器），还是我申请来的..不过没那么重要了，有的 linux 用就很满足了（来之后一直在用 windows，还不是特别习惯）。

需求

想法和问题

想自己动手搭起来但是苦于几个问题：

1.有无必要用 hadoop 生态的东西，而且是单机，没必要的话我也想自己试着动手（反正项目也不急，而且之前的工作太简单了，觉得太无聊了。项目用什么技术领导也不懂也无所谓），或者有没有其他的工具？

2.一直主要用 python，java 只知皮毛，当然能借此学 java 进步一下也可。但是有没有 python 比较紧密的工具？

总之就是想用这个机会学习动手点新东西而且做好，但是这个架构什么的对我来说还是比较难，所以想得到各位大佬的建议

8 条回复 • 2020-05-26 11:45:00 +08:00