Python文件读取疑惑 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4471 天前的主题，其中的信息可能已经有所发展或是发生改变。

我正在用python处理一个比较大的数据文件，因为这些数据是用来训练模型的，由于模型的限制，必须一次性把数据读入内中，不能使用生成器。数据文件有634M，但是我发现读取文件的过程中，内存开销非常大，还没有完全读完数据，内存使用已经超过3G，我非常好奇这是什么原因导致的？是不是python底层实现的问题？

详细情况:
OS: windows 7 64位
python: 3.3.2
操作: 仅仅是读数据，然后把读入的数据转成数字型，读取过程是按行处理的。

第 1 条附言 · 2013 年 11 月 6 日

刚才试了一下，不做任何类型转换，单纯的读数据，放到列表中，内存消耗大概1.2G，但是对每一行做split()操作之后，一瞬间就飙到到2G以上，而且还在不断增加。看来是对数据的操作过程带来了大量的内存消耗……

11 条回复 • 1970-01-01 08:00:00 +08:00

1

cloudzhou

2013 年 11 月 6 日

这种情况不一定是python读取文件的问题，你可以先实现一个python脚本，只读取到内存，什么都不做，看看需要占用多少内存

2

yuelang85

2013 年 11 月 6 日

应该是把数据转换成python对象造成的开销吧

3

flyaway

OP

2013 年 11 月 6 日 via iPhone

机子内存只有4g，有没有什么解决方案呢？

4

yelite

2013 年 11 月 6 日

@flyaway 在需要使用的时候再转换类型？

5

flyaway

OP

2013 年 11 月 6 日 via iPhone

把读取过程做成生成器，然后在生成器之上对每条数据进行类型转换，这样会不会减少内存消耗呢？我现在在上课，只能暂时和大家纸上谈兵了…

6

yuelang85

2013 年 11 月 6 日

1

@flyaway 如果你之前转的数据不消灭，这样内存还是会一点一点变大。。。。

7

sethverlo

2013 年 11 月 6 日

1

我记得好像「python range xrange」这个关键词可以帮到楼主。

8

flyaway

OP

2013 年 11 月 6 日 via iPhone

可是现在的模型算法需要把训练数据整体传过去，内存消耗不可避免，可是我不明白的是，为什么600多m的数据在内存中成为python对象之后会占用如此之多的内存

9

lookhi

2013 年 11 月 6 日

又想马儿跑的快，又想马儿不吃草。
难啊

10

chlx

2013 年 11 月 6 日 via Android

我也遇到类似的问题，是用ndarray的两个矩阵拼接时内存开销很大，数据量大时机器吃不消

11

dreampuf

2013 年 11 月 6 日

反序列化带来的开销

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 954 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 28ms · UTC 20:47 · PVG 04:47 · LAX 12:47 · JFK 15:47
♥ Do have faith in what you're doing.