Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Apache Hadoop

› Hortonworks Sandbox

› Intel Hadoop Distribution

› Treasure Data

这是一个创建于 1976 天前的主题，其中的信息可能已经有所发展或是发生改变。

我是用 Flink 的 DataSet API 去读取文件，用的 Hadoop Compatability 里 Hadoop 的 FileInputFormat，发现在创建分片的 getSplits()方法里，会去遍历每一个文件获取 block locations，有 10 万个文件的话就得发 10 万次请求，所以任务初始化非常慢，请问一下有什么好的解决办法么？

hadoop

文件

读取

初始化

4 条回复 • 2020-08-24 17:15:43 +08:00