Python 操作大文件更新 MongoDB 的操作 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2782 天前的主题，其中的信息可能已经有所发展或是发生改变。

题目的表达可能有些问题。情况是这样的：现有已经存在大量数据的 MongoDB 集合，现在要添加一个新的字段，然后这样字段的值来自于一个 json 文件。不过这样文件特别大（ 4.5G ）在使用 Python 中 json 的 loads （）来操作会卡死，因为 12G 的内存更本弄不了。我还想过 split 来处理 json 文件，但是生成的文件太多，造成在遍历文件的时候卡主了。至于为什么不用 MongoDB 自带的处理 json ，是因为 json 有些字段不需要。

不过我想想，目前要是能导入进去就可以了。

问题就是怎么去更新呢？

谢谢

8 条回复 • 2017-04-04 18:36:35 +08:00

1

minvacai

2017-04-04 16:24:26 +08:00 via Android

这个不太懂，不过如果没有其它好办法的话能不能用 MongoDB 自带的先导入到一个临时库里再去掉不需要的部分？

2

hareandlion

2017-04-04 16:45:38 +08:00

使用游标读取数据，手动设置一次更新的数据条数，时间换空间，另外这种可以考虑一下协程或者多进程操作的吧？

3

golmic

2017-04-04 17:08:35 +08:00

你这问题应该和 mongodb 无关吧，主要问题是如何用 python 操作大的 json 文件读写数据

4

crayygy

2017-04-04 17:12:33 +08:00 via iPhone

之前遇到过类似的问题，从一个超大的文本文件倒入到数据库，比你这个还大， 10G 每个文件，本来用的 mongodb ，测了一次以后我转到 postgresql 去了……

5

oulongqi

2017-04-04 17:33:53 +08:00

MongoDB 有 aggregate pipeline / bulk 操作, up 可以查一查

6

wangxn

2017-04-04 17:40:13 +08:00

不生成文件对应的 JSON 对象，直接解析 .json 文件，使用正则表达式或者其他什么手段来提取数据。

7

billlee

2017-04-04 17:51:27 +08:00

你是说用 split(1) 处理？如果可以用分行处理，那也可以直接用 python 的 for line in file_object 来逐行处理啊

8

cxbig

2017-04-04 18:36:35 +08:00

既然 Python 都参与了，没有对数据做 pagination 么？

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2901 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 22ms · UTC 02:53 · PVG 10:53 · LAX 18:53 · JFK 21:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.