V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kex0916  ›  全部回复第 1 页 / 共 3 页
回复总数  53
1  2  3  
把文件合并下,或者把读取文件过程拆分成多个任务跑,最后再 union 起来
可以先将大文件解压缩后放到 hdfs 上后再做计算,或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种
2019 年 11 月 11 日
回复了 ccfoucs 创建的主题 推广 双十一🐶东购物超强省钱方案来了,这样做直接返现!
邀请码:nlb4o8
2019 年 4 月 18 日
回复了 blackcurrant 创建的主题 程序员 上百亿个键值对使用什么数据库好?
hbase
2019 年 3 月 6 日
回复了 PingCAP 创建的主题 酷工作 这些「神秘」团队到底是做什么的?| PingCAP 招聘季
@qiuyesuifeng 我看官网上大数据岗位在北京,成都有岗位吗?
2019 年 2 月 27 日
回复了 leechow 创建的主题 成都 成都招银网络科技云平台(云计算)开发社招
@leechow 好的,谢谢
2019 年 2 月 25 日
回复了 leechow 创建的主题 成都 成都招银网络科技云平台(云计算)开发社招
老哥可以帮推大数据的吗
2019 年 2 月 20 日
回复了 casillasyi 创建的主题 程序员 最近在准备弃了 Java ,入 Clojure 的坑
可以试试 scala 瑟
你要找应用真正停止的原因,是正常执行完还是遇到了错误
ERROR scheduler.LiveListenerBus: SparkListenerBus has already stopped! 这个应该是 SparkContext 停止引起的,java.io.IOException: Broken pipe 这个要看看调用栈
数据的话你可以重新跑这个任务吗,计算一下条数什么的比较一下
看样子是 task 提交被拒绝了,你有开启 spark task 推测执行吗,具体的原因要看一下 driver 的日志
如果被拒绝的原因是因为已经执行完成的话对数据没有影响,如果是因为已经标记失败的话那可能对数据有影响,如果 task 重试成功可能会重复,如果重试失败可能丢数据
你点有 failed 的 stages,应该能看到失败的原因,或者去查看 executor 的日志应该也能找到失败原因
数据准确性这块你是保存文本数据,写出操作不是幂等的话在出错的时候是保证不了有且仅有一次的
2019 年 1 月 10 日
回复了 trafficMGR 创建的主题 Hadoop 自建 5 个节点的 Hadoop 集群,以及完成 MapReduce 作业
看看 NameNode DataNode,NodeManager 等日志,有没有通信警告什么的
2019 年 1 月 4 日
回复了 cirton 创建的主题 Hadoop yarn 可以监控 hadoop 或者 spark 的服务吗?
yarn 是 hadoop 的资源管理调度器,可以监控在 yarn 上运行的任务,但是不能监控 hadoop 生态的其余的组件。
你说的这种集群监控可以使用 CM,或者 Ambari 这类工具。
2018 年 12 月 14 日
回复了 qqq8724 创建的主题 问与答 新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件
@qqq8724 😀
2018 年 12 月 14 日
回复了 qqq8724 创建的主题 问与答 新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件
要按照压缩包文件目录分层分区要在 driver 侧就能拿到目录结构然后划分 partitions,然后每个 partition 读取该目录下的数据,但是压缩文件默认一般都是不 splitable 的,每个 partition 读取的时候也得完全解开后读取该分区的指定目录,这样各个分区都会有重复的工作。我建议是:
driver 侧将 tar.gz 先解压到临时目录,多个压缩文件可以按文件路径下发 task 来分布式解压,得到解压后的临时目录后,自己重写 FileInputFormat 来划分 split 然后采用 newAPIhadoopRDD 或者自己实现 RDD,按照临时目录下的目录来划分分区,执行完后把临时目录删除。
至于你说的不解压直接读,只要读还是得解压吧,可能只是在内存中完成解压而没有写到磁盘上。
2018 年 11 月 29 日
回复了 zhuzhezhe 创建的主题 生活 23 岁,得了癌症,人生无望
加油加油
不能保证每台机器上都能至少起一个 executor,最好还是放到 hdfs 这种分布式文件系统上
spark 读取的话可以自己实现分区切分的规则,也可以采用自己实现 FileInputFormat 将 isSplitable 设置成 false,然后使用 hadoop rdd api.
2018 年 10 月 9 日
回复了 Nirlan 创建的主题 Hadoop 关于 Spark 读取预分区 Hbase 问题
@Nirlan ^_^
1  2  3  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3837 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 04:15 · PVG 12:15 · LAX 20:15 · JFK 23:15
♥ Do have faith in what you're doing.