V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dndx
V2EX  ›  分享发现

有没有人考虑做密码泄漏中招查询网站?

  •  
  •   dndx · 2011-12-22 15:52:27 +08:00 · 5629 次点击
    这是一个创建于 4719 天前的主题,其中的信息可能已经有所发展或是发生改变。
    实际上,技术实现也会很蛋疼,只能考虑把4000W条记录全部Cache到Memory里。MySQL、MongoDB神马的基本上没用,因为必然每次都是4000W的全表扫描,网友涌来服务器必宕无疑。

    如果有同学能提供8G内存的VPS,这事还比较靠谱。可以来联系我Twitter@dndxdndx

    我用Python试了一下,600W条内存记录遍历一次大概需要0.4s,可以忍受。
    23 条回复    1970-01-01 08:00:00 +08:00
    rfwert343
        1
    rfwert343  
       2011-12-22 15:53:46 +08:00
    不用直接下载以后看更快
    cdh_ys
        2
    cdh_ys  
       2011-12-22 15:54:31 +08:00
    http://t.easyicon.cn/ 不到0.4s吧
    dndx
        3
    dndx  
    OP
       2011-12-22 15:56:09 +08:00
    @cdh_ys E-Mail和用户名都遍历,因为记不住用户名的人是相当多的。
    rfwert343
        4
    rfwert343  
       2011-12-22 15:57:16 +08:00
    @dndx 你不如直接做个链接网站,电驴分享的,不消耗服务器。
    dndx
        5
    dndx  
    OP
       2011-12-22 15:57:50 +08:00
    @cdh_ys 另外这个站用的是精确匹配
    比如你叫dndx123,你搜dndx是搜不到的
    这样能利用索引,所以速度快
    代价是记不清用户名就悲剧了。
    rfwert343
        6
    rfwert343  
       2011-12-22 15:59:06 +08:00
    @dndx 做个电驴链接分享网站,用discuz论坛就能搭建一个。然后下载都是用户自己下载用户的,你就不用担心服务器耗不起了。
    dndx
        7
    dndx  
    OP
       2011-12-22 16:00:07 +08:00
    @dndx 上条纠正,这个站应该是like %xxx% 匹配的
    dndx123是能用dndx搜到的。
    dndx
        8
    dndx  
    OP
       2011-12-22 16:01:45 +08:00
    @rfwert343 小心跨省啊。
    rfwert343
        9
    rfwert343  
       2011-12-22 16:03:02 +08:00
    @dndx 你直接做个密码查询网站数据都在你网站上,岂不是更要抓你?
    dndx
        10
    dndx  
    OP
       2011-12-22 16:04:23 +08:00
    @rfwert343 但是在显示结果前你可以给密码打码,客观上你并没有传播别人的密码,也就无从跨省了。
    rfwert343
        11
    rfwert343  
       2011-12-22 16:06:07 +08:00
    @dndx 话是这样说,可是你说哪个更容易被封呢?数据都在你的服务器上呢。
    lxklz
        12
    lxklz  
       2011-12-22 16:36:30 +08:00
    http://leak.xpcha.com/csdn/ 这个也很快,但好像只能精确匹配
    willerce
        13
    willerce  
       2011-12-22 16:55:52 +08:00
    多简单的事,放数据库就OK了,分表嘛。
    dreamersdw
        14
    dreamersdw  
       2011-12-22 17:47:09 +08:00
    方法有很多种
    1)像 @willere 说的那样放数据库里,加上索引,或者分区。
    2)虽然是文件数据,但努力一下也可以像 ctags 那样,实现二分查找。
    3)利用文件系统实现查找功能,比如建立多层文件夹表示用户名 /path/s/o/m/e/o/n/e/
    CMGS
        15
    CMGS  
       2011-12-23 00:22:14 +08:00
    目前放出来的都是精确匹配,数据入数据库,索引Email和Name……
    模糊的……恩有……纯文本grep,下面有提供方案……
    http://www.v2ex.com/t/24087#reply15

    哈欠……睡觉去……
    feiandxs
        16
    feiandxs  
       2011-12-23 00:34:49 +08:00
    我一直想知道
    xmd5这种站是怎么做到的。。。
    billions of key/values....
    delectate
        17
    delectate  
       2011-12-23 00:34:50 +08:00
    文件系统io是瓶颈;grep更快
    delectate
        18
    delectate  
       2011-12-23 00:35:07 +08:00
    grep+正则还可以支持模糊匹配
    taby
        19
    taby  
       2011-12-23 01:12:08 +08:00
    金山已经出了吧
    vibbow
        20
    vibbow  
       2011-12-23 02:46:52 +08:00
    http://vsean.net/blog/post/98 5个数据库全文搜索,搜一次3分钟...
    jakori
        21
    jakori  
       2011-12-24 17:43:24 +08:00
    这玩意估计就一阵风,这阵风过了,还会有多少用户来查询咧
    dndx
        22
    dndx  
    OP
       2011-12-24 18:15:53 +08:00
    @feiandxs CMD5大多数情况下查询都会告诉你“已加入队列,完毕后E-Mail通知”
    这不很显然嘛。
    Showfom
        23
    Showfom  
       2011-12-24 21:21:44 +08:00
    已联系~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   926 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:50 · PVG 04:50 · LAX 12:50 · JFK 15:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.