Hadoop 框架下的 HDFS 大数据存储组件,用来存储海量数据的。目前是不是没有替代的方案?或者说 cdh、hdh 等等为基础 hadoop 生态圈无可替代? 无论 spark,flink,storm 都要缺少存储组件或者说必须运行在 HDFS 之上? 很想知道有没有一种能够快速部署、关注数据分析的开源产品或者方案? 觉得从用户角度,把现有的数据灌入平台(例如 hadoop 生态系统),利用平台(生态系统)提供各种武器高效分析才是目的。
1
Itoktsnhc 2018-03-15 16:58:18 +08:00
azure hdinsight 了解一下?
|
2
we000 2018-03-15 17:03:22 +08:00
ceph 了解一下?
|
3
whatsmyip 2018-03-15 19:25:32 +08:00
不是无可替代,更多是没法替代
很多公司以前用 Hadoop,数据都在 HDFS 上,做迁移很麻烦 Flink 不知道,Spark 确实要求 HDFS,尽管它要替换 Hadoop,但是数据层这块,真的不好动,毕竟换一个新的系统不是一件容易做到的事(对于说大不大,说小不小的公司来说),至于 Storm,没说一定要落地到 HDFS 啊,我放到 Redis、mongoDB、Mysql 都有 至于更快的存储,也是有的,比如 Alluxio,是 Spark 同实验室开发出来的,思想跟 Spark 类似,都是借助内存对硬盘碾压式的读写速度 最后,目前大数据平台是有很多的,开源的 HUE,闭源的阿里、Azure 都有。另外,/t/428727 这个帖子里也提到了很多工具。 |
4
jahan OP @whatsmyip 其实对于初学者来说,从未来学习角度讲,如果有更好的替代方案那是最佳的,毕竟 hadoop 也是 2004 年的了(当然,c,unix 都是上个世纪 80 年代的,依然在业界活的不错)。
如果对于企业界来说,确实是 legacy 太多,不好转型。 Matei 做的 Dawn 项目我觉得就是一个特别好的平台,特别希望数据分析用户不用特别关心 infrastructure,而只关心数据如何进入,分析数据,呈现分析结果的平台。尤其是各种分析武器接口,比如 python,r 等对非计算机科班的来说就特别重要,当然还有各种 ml 包。从纯使用者来讲,特别想找到这样一个下一代的解决方案。 记得哪里看过一个开源项目介绍,说是用户可以不关心 infrastructure,快速部署,马上使用,忘记具体名字了,只记得开源版本和商用版本差别较大。 flink 也是可以使用非 hdfs 的数据存储,但总觉得 hdfs 的影子很重。 目前的方案,感觉基本上是基于 hadoop 的 cloudera 和 hortonworks,mapR。如果要搜索新的更快的存储,除了上面的说的几个,要搜什么关键词呢? HUE 应该是 cloudera 开发的? 看哪一个更有前途是不是要看哪一家开源拿的投资多,哪家股价高? hdp 和 cldr 股价差不多。 |
5
jahan OP @whatsmyip Alluxio 貌似也是一个针对不同数据源( hadoop,s3 等)的数据接口,Alluxio, formerly Tachyon, enables any application to interact with any data from any storage system at memory speed.
|
6
Xibuka 2018-03-16 08:01:16 +08:00
GlusterFS 了解下~
|
7
lyc1116 2018-03-16 17:50:09 +08:00
顶 GlusterFS
|