1
mongodb 2013-10-07 09:27:57 +08:00 1
直接导入mysql 也挺快的。
如果没有对外服务的大量读写,换句话说,不需要在性能追求上吹毛求疵的话,做些简单的优化和处理也足够了。 索引必须弄好。 有些时候吧,有些简单的操作交给linux几个文本神器,更快。。 |
2
Livid MOD Hive
|
3
freeznet OP 剛才同boss聊過以後boss的意思也是用mysql,因為基本上都是本地分析的讀寫,所以就定用mysql了~
|
4
xdeng 2013-10-07 11:40:15 +08:00
文本压缩比 10%
|
5
plprapper 2013-10-07 12:31:36 +08:00
这个数据规模不上hadoop 神码的 够呛 你用mysql 会卡的吧
|
6
Livid MOD 你贴 10 行 sample 出来看看吧。
|
7
freeznet OP sample 就是 twitter 的 tweet json
{"favorited": false, "truncated": false, "text": "3-1. Walters. Arse.", "created_at": "Wed Dec 26 20:51:26 +0000 2012", "retweeted": false, "source": "web", "user": {"id": 70992183, "verified": true, "profile_sidebar_fill_color": "http://a0.twimg.com/profile_background_images/55981711/twitter_shankly.jpg", "profile_text_color": "333333", "followers_count": 55319, "location": "Leicester", "profile_background_color": "C0DEED", "listed_count": 1929, "statuses_count": 23032, "description": "Sportswriter. Baldie. Author of 9 books. Plan to sporadically tweet again, plus automatically-generated article/news links from http://t.co/u78KTmM8", "friends_count": 380, "profile_link_color": "0084B4", "profile_image_url": "http://a0.twimg.com/profile_images/1005760083/For_Twitter3_normal.jpg", "screen_name": "paul_tomkins", "lang": "en", "profile_background_tile": false, "favourites_count": 3, "name": "Paul Tomkins", "url": "http://tomkinstimes.com/", "created_at": "Wed Sep 02 15:31:39 +0000 2009", "time_zone": "London", "protected": false}, "retweet_count": 4, "id": 284038736671539201} 類似這樣的 |
8
otakustay 2013-10-08 03:21:09 +08:00
500G的数据用MySQL分析不难,如果对时间没特别高的要求还不至于要hive或者hadoop这样的,熟悉MySQL的话就用着MySQL好了
我觉得问题在于,这数据怎么导入MySQL去……至少500G的东西全读入内存然后parseJSON是不现实的,得要一个支持流读取的JSON实现,边读边丢,读完一个对象就别留内存里。java中有jackson之类的,python有ijson这种 |