1
qyvlik 2020-03-02 10:31:38 +08:00 1
你使用的编程语言和环境?
|
2
Torpedo 2020-03-02 10:34:56 +08:00 1
如果预先知道 json 的结构,可以手写个解析器优化下
|
4
tiiis 2020-03-02 10:36:42 +08:00 1
|
5
qyvlik 2020-03-02 10:51:47 +08:00 1
@Kamitora 如果是我的话,用 java,先用 fastjson 解析成 JSON 对象,然后直接按 JSON 对象的结构进行遍历,然后按要求写到 RDS 数据库。
另外的做法就是,将 这个 JSON 字符串解析好后,分批插入 mongo ( mongo 单个 document 有大小限制,可修改),mongo 有 js、java、go 等语言的开发库。 |
6
Mutoo 2020-03-02 10:56:04 +08:00 1
stream-json 专门处理大 json,流式处理的过程中正好可以获得各级的 key 和 value
|
7
gwy15 2020-03-02 11:14:19 +08:00
十万行也不大啊,正常做就行,不用特别优化
|
8
lavanil 2020-03-02 13:04:41 +08:00
val path = "examples/src/main/resources/people.json"
val peopleDF = spark.read.json(path) |
9
love 2020-03-02 13:40:25 +08:00
10w 不多啊,内存不够加内存。
当然能改原始输出格式就最好了,这类都要改成单行一个 JSON 文档的风格方便流式处理。 |