google 是如何存储上亿 simhash 的?目标:存储并可快速匹配

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3238 天前的主题，其中的信息可能已经有所发展或是发生改变。

simhash 算法简单又高效.

但是问题来了,如何对亿级 hash 进行存储,同时达到高效查找的目的

目前的做法:

将 64bit 的 hash 分为 8 片, 然后分别以每片的值做 key,其余所有作为 set 的 value 存储在 redis 中,

每次新来一个 hash 就将其分片,去 redis 查 8 次,然后遍历所有再进行抑或得到海明距离小于 2 的结果.

这样下来每次查询都需要 100ms 左右, 请问有更好的方式么?

7 条回复 • 2017-03-24 11:03:24 +08:00

solos

2017 年 3 月 23 日

可以分表吧

paradoxs

2017 年 3 月 23 日 via iPhone

hadoop

xiusedelang

2017 年 3 月 23 日 via Android

这个查询技巧在谷歌的论文里也给出来了吧

mooncakejs

2017 年 3 月 23 日 via iPhone

用 8 个 redis

wzha2008

2017 年 3 月 24 日

996635

2017 年 3 月 24 日

@wzha2008 #5 这篇的回答被推翻了

996635

2017 年 3 月 24 日