有很多 xml 文件,如何按照文件去并行,而不是一个大文件切分成小块来做并行计算呢? 比如现在我有很多的 xml 文件,我想要做的是利用 spark 去同时解析多个 xml 文件,而不是一个 xml 文件被且分成小块去处理
1
kex0916 2018-11-24 22:59:04 +08:00
spark 读取的话可以自己实现分区切分的规则,也可以采用自己实现 FileInputFormat 将 isSplitable 设置成 false,然后使用 hadoop rdd api.
|
3
kex0916 2018-11-25 13:49:09 +08:00
不能保证每台机器上都能至少起一个 executor,最好还是放到 hdfs 这种分布式文件系统上
|
4
ls2995 2018-11-28 09:03:42 +08:00
我跟你的任务咋这么一致呢,我是大概 8T 的 zip 文件在 hdfs 上,里面也都是 xml,我需要解压后再在集群上做解析存到 hbase,我解压就是看你发的那个链接写出来的,但是性能确实不太好,你最后是怎么解决的?
|