题目的表达可能有些问题。 情况是这样的: 现有已经存在大量数据的 MongoDB 集合,现在要添加一个新的字段,然后这样字段的值来自于一个 json 文件。不过这样文件特别大( 4.5G )在使用 Python 中 json 的 loads ()来操作会卡死,因为 12G 的内存更本弄不了。我还想过 split 来处理 json 文件,但是生成的文件太多,造成在遍历文件的时候卡主了。 至于为什么不用 MongoDB 自带的处理 json ,是因为 json 有些字段不需要。
不过我想想,目前要是能导入进去就可以了。
问题就是怎么去更新呢?
谢谢
1
minvacai 2017-04-04 16:24:26 +08:00 via Android
这个不太懂,不过如果没有其它好办法的话能不能用 MongoDB 自带的先导入到一个临时库里再去掉不需要的部分?
|
2
hareandlion 2017-04-04 16:45:38 +08:00
使用游标读取数据,手动设置一次更新的数据条数,时间换空间,另外这种可以考虑一下协程或者多进程操作的吧?
|
3
golmic 2017-04-04 17:08:35 +08:00
你这问题应该和 mongodb 无关吧,主要问题是如何用 python 操作大的 json 文件读写数据
|
4
crayygy 2017-04-04 17:12:33 +08:00 via iPhone
之前遇到过类似的问题,从一个超大的文本文件倒入到数据库,比你这个还大, 10G 每个文件,本来用的 mongodb ,测了一次以后我转到 postgresql 去了……
|
5
oulongqi 2017-04-04 17:33:53 +08:00
MongoDB 有 aggregate pipeline / bulk 操作, up 可以查一查
|
6
wangxn 2017-04-04 17:40:13 +08:00
不生成文件对应的 JSON 对象,直接解析 .json 文件,使用正则表达式或者其他什么手段来提取数据。
|
7
billlee 2017-04-04 17:51:27 +08:00
你是说用 split(1) 处理?如果可以用分行处理,那也可以直接用 python 的 for line in file_object 来逐行处理啊
|
8
cxbig 2017-04-04 18:36:35 +08:00
既然 Python 都参与了,没有对数据做 pagination 么?
|