数亿条key-value对，每个value大概是20k～50k的json字符串，求分布式存储方案！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4627 天前的主题，其中的信息可能已经有所发展或是发生改变。

不考虑mongodb，mongodb的disk footprint太大，太占硬盘空间。
hbase是不是一个好方案？没用过，稍微浏览了下文档，感觉配置起来有点复杂。
redis做集群，合适吗？
或者整一个分布式文件系统，直接存成文件？
大神们，求破！

value

MongoDB

整一个

22 条回复 • 2014-06-06 10:42:23 +08:00

Livid

MOD

PRO

2013 年 5 月 22 日

Riak

Cadina

2013 年 5 月 22 日

这要看你查询的需求了啊

Livid

MOD

PRO

2013 年 5 月 22 日

HBase 的问题是，这些数据你打算用什么编程语言来存取？

HBase 的 first-class 编程语言是 Java。

plprapper

2013 年 5 月 22 日

把value做序列化处理然后再看看大小呢？

webflier

2013 年 5 月 22 日

@Livid 工作语言c#, mono平台，Riak感觉水很深啊，刚出来的东西，你对Riak有很好的体验不？

@Cadina 查询的话，基本就是根据key值random access

Livid

MOD

PRO

2013 年 5 月 22 日

@webflier Riak 出来的时间不短了，是一个靠谱的分布式 KV 数据库。你可能需要花一些时间研究它的部署，但是一旦熟悉了，这个东西还是很可靠的。

webflier

2013 年 5 月 22 日

@plprapper 如果size变小的话，5～10k，有什么好建议？

swulling

2013 年 5 月 22 日

你这个才T级别的数据，不必太在乎硬盘空间吧。

austin

2013 年 5 月 22 日

应该视你数据的读取频率、改写频率、数据一致性要等需求不同，而最终方案不同。
如果读取频率很小，自己搞一个hash算法，存文件或直接存mysql都可以。
如果读取的很频繁，而且是乱序的，放redis里面是一个好方案。也是自己hash分到多个redis实例即可。

davepkxxx

2013 年 5 月 22 日

memcache或着membase

llbgurs

2013 年 5 月 22 日

couchbase

oldgun

2013 年 5 月 22 日

你这个其实Berkeley DB就可了，可能插入性能需要看看。

Los

2013 年 5 月 23 日

插个内容，Hbase 支持 REST 方式进行操作
http://wiki.apache.org/hadoop/Hbase/Stargate
当然，有更好的另一种操作方式是通过 Thrift 连接 Hbase，能够支持常见的开发语言，包括c#,java,python,php,ruby 等等
http://wiki.apache.org/hadoop/Hbase/ThriftApi