分块读取 hdfs 数据，一条数据分为多条

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2804 天前的主题，其中的信息可能已经有所发展或是发生改变。

请问在读取 hdfs 文件的时候，采用分块 chunksize 读取数据，但怎么会把一条数据拆分成多条呢？
with client.read(full_path,encoding='utf-8',chunk_size=10000) as reader:
for piece in reader:
piece=piece.split('\n')
for line in piece:
print(line)

本来数据是 2018-05-01|weorjerjsfj|worjwelfjs|
结果读出来的数据是 2018-05-01|weo
rjerjsfj|worjwelfjs|分别显示了两条记录

piece

分块

worjwelfjs

hdfs

1 条回复 • 2019-04-19 11:06:21 +08:00

RmanzzZ

2019 年 4 月 19 日

老哥问题解决了吗遇到同样问题了不知道怎么处理