V2EX › kex0916 的所有回复 › 第 1 页 / 共 3 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3

❮

❯

2020 年 8 月 24 日

回复了 ysn2233 创建的主题 › Hadoop › Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么？

把文件合并下，或者把读取文件过程拆分成多个任务跑，最后再 union 起来

2020 年 3 月 12 日

回复了 ysn2233 创建的主题 › Hadoop › 有什么好的办法可以用 Flink/Spark 高效率并行处理大量大小不一的压缩数据

可以先将大文件解压缩后放到 hdfs 上后再做计算，或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种

2019 年 11 月 11 日

回复了 ccfoucs 创建的主题 › 推广 › 双十一🐶东购物超强省钱方案来了，这样做直接返现！

邀请码:nlb4o8

2019 年 4 月 23 日

回复了 KOSKERS 创建的主题 › Scala › 请教下关于用 Flume+kafka+Spark 实现实时监控错误日志报警的功能

看官网吧，比较系统全面
http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

2019 年 4 月 18 日

回复了 blackcurrant 创建的主题 › 程序员 › 上百亿个键值对使用什么数据库好？

hbase

2019 年 3 月 6 日

回复了 PingCAP 创建的主题 › 酷工作 › 这些「神秘」团队到底是做什么的？| PingCAP 招聘季

@qiuyesuifeng 我看官网上大数据岗位在北京，成都有岗位吗?

2019 年 2 月 27 日

回复了 leechow 创建的主题 › 成都 › 成都招银网络科技云平台（云计算）开发社招

@leechow 好的，谢谢

2019 年 2 月 25 日

回复了 leechow 创建的主题 › 成都 › 成都招银网络科技云平台（云计算）开发社招

老哥可以帮推大数据的吗

2019 年 2 月 20 日

回复了 casillasyi 创建的主题 › 程序员 › 最近在准备弃了 Java ，入 Clojure 的坑

可以试试 scala 瑟

2019 年 2 月 2 日

回复了 qqq8724 创建的主题 › 问与答 › 问个 Spark 的问题,为什么 stage 没跑完,整个 job 就已经完了

你要找应用真正停止的原因，是正常执行完还是遇到了错误
ERROR scheduler.LiveListenerBus: SparkListenerBus has already stopped! 这个应该是 SparkContext 停止引起的，java.io.IOException: Broken pipe 这个要看看调用栈
数据的话你可以重新跑这个任务吗，计算一下条数什么的比较一下

2019 年 2 月 2 日

回复了 qqq8724 创建的主题 › 问与答 › 问个 Spark 的问题,为什么 stage 没跑完,整个 job 就已经完了

看样子是 task 提交被拒绝了，你有开启 spark task 推测执行吗，具体的原因要看一下 driver 的日志
如果被拒绝的原因是因为已经执行完成的话对数据没有影响，如果是因为已经标记失败的话那可能对数据有影响，如果 task 重试成功可能会重复，如果重试失败可能丢数据

2019 年 2 月 2 日

回复了 qqq8724 创建的主题 › 问与答 › 问个 Spark 的问题,为什么 stage 没跑完,整个 job 就已经完了

你点有 failed 的 stages，应该能看到失败的原因，或者去查看 executor 的日志应该也能找到失败原因
数据准确性这块你是保存文本数据，写出操作不是幂等的话在出错的时候是保证不了有且仅有一次的

2019 年 1 月 10 日

回复了 trafficMGR 创建的主题 › Hadoop › 自建 5 个节点的 Hadoop 集群，以及完成 MapReduce 作业

看看 NameNode DataNode，NodeManager 等日志，有没有通信警告什么的

2019 年 1 月 4 日

回复了 cirton 创建的主题 › Hadoop › yarn 可以监控 hadoop 或者 spark 的服务吗？

yarn 是 hadoop 的资源管理调度器，可以监控在 yarn 上运行的任务，但是不能监控 hadoop 生态的其余的组件。
你说的这种集群监控可以使用 CM，或者 Ambari 这类工具。

2018 年 12 月 14 日

回复了 qqq8724 创建的主题 › 问与答 › 新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件

@qqq8724 😀

2018 年 12 月 14 日

回复了 qqq8724 创建的主题 › 问与答 › 新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件

要按照压缩包文件目录分层分区要在 driver 侧就能拿到目录结构然后划分 partitions,然后每个 partition 读取该目录下的数据，但是压缩文件默认一般都是不 splitable 的，每个 partition 读取的时候也得完全解开后读取该分区的指定目录，这样各个分区都会有重复的工作。我建议是:
driver 侧将 tar.gz 先解压到临时目录，多个压缩文件可以按文件路径下发 task 来分布式解压，得到解压后的临时目录后，自己重写 FileInputFormat 来划分 split 然后采用 newAPIhadoopRDD 或者自己实现 RDD，按照临时目录下的目录来划分分区，执行完后把临时目录删除。
至于你说的不解压直接读，只要读还是得解压吧，可能只是在内存中完成解压而没有写到磁盘上。

2018 年 11 月 29 日

回复了 zhuzhezhe 创建的主题 › 生活 › 23 岁，得了癌症，人生无望

加油加油

2018 年 11 月 25 日

回复了 dhairoot 创建的主题 › Hadoop › 有很多 xml 文件，如何按照文件去并行，而不是一个大文件切分成小块来做并行计算呢？

不能保证每台机器上都能至少起一个 executor，最好还是放到 hdfs 这种分布式文件系统上

2018 年 11 月 24 日

回复了 dhairoot 创建的主题 › Hadoop › 有很多 xml 文件，如何按照文件去并行，而不是一个大文件切分成小块来做并行计算呢？

spark 读取的话可以自己实现分区切分的规则，也可以采用自己实现 FileInputFormat 将 isSplitable 设置成 false，然后使用 hadoop rdd api.

2018 年 10 月 9 日

回复了 Nirlan 创建的主题 › Hadoop › 关于 Spark 读取预分区 Hbase 问题

@Nirlan ^_^

1 2 3

❮

❯