RT。 Yelp 官网上面那个数据及太大了,信息比较全,要是全加载的话,机器会卡死,那么怎么样从里面取一小部分数据出来做实验啊,请问怎么做比较靠谱。
1
PythonAnswer 2018-01-10 10:25:22 +08:00 via Android
头 1000 条尾 1000 条
|
2
wayne1027 2018-01-10 10:29:57 +08:00
随机 100 万
|
3
Morriaty 2018-01-10 13:46:03 +08:00
如果是和数据分布无关的操作,就随机抽呗,比如 Python 就是 generator 每隔一万行 yield 一个。
如果是和数据分布有关,比如 1T 文件的排序,那你要有采样的过程。 |
4
likuku 2018-01-10 18:46:20 +08:00
head -n XXXX src.data.txt >> test.data.txt
|