V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
vibbow
V2EX  ›  分享发现

密码泄漏搜索工具

  •  
  •   vibbow · 2011-12-23 02:45:36 +08:00 · 4994 次点击
    这是一个创建于 4762 天前的主题,其中的信息可能已经有所发展或是发生改变。
    密码泄漏搜索工具,用于在5个已泄漏的数据库里综合搜索数据。

    目前已经支持的5个数据库:CSDN, 7k7k, 人人, 嘟嘟牛, 多玩。虽然网上能下到猫扑的数据,但是实际压缩包是损坏的,所以在这里就先不支持了。

    关键字长度要超过6位,同时只接受字母,数字以及点(.),下划线(_),AT(@)。

    此工具仅提供7天,7天后关闭提交。如果还有未完成的搜索则等待搜索完成后彻底关闭。

    http://vsean.net/blog/post/98
    33 条回复    1970-01-01 08:00:00 +08:00
    evlos
        1
    evlos  
       2011-12-23 02:59:05 +08:00
    。。。关键字要6位 。。。。我账号才5位。。。。
    vibbow
        2
    vibbow  
    OP
       2011-12-23 03:02:35 +08:00
    @evlos 好吧,那我修改成5位的,不过应该不能再少了...
    vibbow
        3
    vibbow  
    OP
       2011-12-23 03:20:48 +08:00
    补充说明:不知道由于什么原因,我自己测试往QQ邮箱发信收不到,因此大家尽量用国外的邮箱收信吧。
    vibbow
        4
    vibbow  
    OP
       2011-12-23 05:33:29 +08:00
    我了个去,发现一个严峻的问题:现在性能瓶颈居然不是硬盘,而是CPU...
    vibbow
        5
    vibbow  
    OP
       2011-12-23 06:00:23 +08:00
    因为修改代码时失误,导致给8位用户(应该都是v2ex的吧)发送了一封垃圾邮件,在此表示抱歉。
    carry
        6
    carry  
       2011-12-23 10:16:16 +08:00
    大恩不言谢 创意主很精通搜索吗
    vibbow
        7
    vibbow  
    OP
       2011-12-23 10:37:39 +08:00
    @carry 完全不精通搜索,服务端都是用PHP写的,先全部转小写然后用strstr比较... 要不然效率也不至于这么低了...
    vibbow
        8
    vibbow  
    OP
       2011-12-23 17:42:17 +08:00
    哈,用Process Explorer看了下服务器的运行状况,硬盘今天爽high了~
    vibbow
        9
    vibbow  
    OP
       2011-12-23 17:48:47 +08:00
    delectate
        10
    delectate  
       2011-12-23 18:43:38 +08:00
    win的服务器?这么大的数据库,还是grep等给力,既支持正则,速度又快。
    vibbow
        11
    vibbow  
    OP
       2011-12-23 18:53:00 +08:00
    @delectate 目前还在优化算法... 已经降低了1分钟用时了。全当学习了~
    vibbow
        12
    vibbow  
    OP
       2011-12-23 19:07:13 +08:00
    擦...服务器开始自动备份了...速度瞬间降低...
    vibbow
        13
    vibbow  
    OP
       2011-12-23 19:30:38 +08:00
    怎么优化都是4分钟,应该是到strstr函数的极限了...
    delectate
        14
    delectate  
       2011-12-23 19:47:31 +08:00
    瓶颈。想想顺序读取1g的数据还要很久时间呢。
    vibbow
        15
    vibbow  
    OP
       2011-12-23 19:50:08 +08:00
    @delectate 现在的硬盘连续读取应该都在80M/s以上了吧... 大约30秒就能把2G文件遍历一遍...
    delectate
        16
    delectate  
       2011-12-23 20:09:19 +08:00
    只是那很轻松的,问题是还要匹配。正则的引擎差一点就慢很多。反正不大,都放内存里速度能加倍;或者优化一下数据库,别简单的 cat *> database就拿去用……
    vibbow
        17
    vibbow  
    OP
       2011-12-23 21:52:43 +08:00
    因为国内的服务器在搜索完成后回调国外的服务器失败(这个时段,你懂的…),所以之前给一些用户发送了可能错误的“搜索结果为空”email。因为我也不确定具体什么时间开始失败的,所以我按照缓存的记录,给之前所有搜索结果为空的用户重新搜索并且发送了邮件。
    在此对再次收到我“垃圾邮件”的用户表示抱歉。
    vibbow
        18
    vibbow  
    OP
       2011-12-24 05:31:57 +08:00
    继续优化了代码,全文搜索时间从4分多钟降到了2分钟,同时添加上了mop的库(虽然感觉这个库很奇怪,很假...)
    liruqi
        19
    liruqi  
       2011-12-24 08:54:56 +08:00 via Android
    直接导入到 mongodb 或者 mysql 加索引啊。为啥要自己写查询呢。
    delectate
        20
    delectate  
       2011-12-24 09:26:57 +08:00
    @vibbow ,哇,求~~我下的都是损坏的。
    vibbow
        21
    vibbow  
    OP
       2011-12-24 15:26:33 +08:00
    @liruqi 好吧,我先试试效率。不过先得把原来导入的csdn库从text类型转换成varchar类型...
    laiwei
        22
    laiwei  
       2011-12-24 15:40:59 +08:00
    你不想搞mysql的话,你搞个sqlite存起来,建个索引,比你这样strstr快多了。
    vibbow
        23
    vibbow  
    OP
       2011-12-24 16:06:01 +08:00
    @laiwei sqlite索引不行啊,如果关键字是从中间开始查那么一点效果都没有啊。目前在缓慢的用mysql给csdn库加全文索引中...
    vibbow
        24
    vibbow  
    OP
       2011-12-24 16:12:03 +08:00
    @liruqi MySQL建完全文索引是快了很多啊,我自己查询文本过一次需要23秒,mysql 11秒就搞定了。
    vibbow
        25
    vibbow  
    OP
       2011-12-24 16:19:16 +08:00
    可是建完全文索引后貌似不能同时查多个关键字了...
    不可以用 SELECT * FROM password WHERE keyword LIKE IN ('%keyword1%', '%keyword2%);
    或者有其他sql语句可以用?
    vibbow
        26
    vibbow  
    OP
       2011-12-24 16:31:02 +08:00
    好吧,貌似这样来速度也可以:
    SELECT * FROM password WHERE keyword LIKE '%keyword1%' OR keyword LIKE '%keyword2%';
    liruqi
        27
    liruqi  
       2011-12-24 16:38:17 +08:00
    其实一般自己的id 都能准确记住的,没有必要用 like 做匹配。反而是恶意查询才有这种需求吧。

    建议直接用id 做精确匹配。
    vibbow
        28
    vibbow  
    OP
       2011-12-24 17:20:42 +08:00
    @liruqi 就我这服务器速度,再加上还限制了并发数量,想批量恶意查询还不如自己把数据库下下来快...
    一般查询,随他们去了。
    vibbow
        29
    vibbow  
    OP
       2011-12-24 21:09:21 +08:00
    蛋疼了。加上17173的数据,总共有8千多万条数据,我觉得没个两三天是建立不完索引的了...
    算了,还是继续文本搜索吧...
    delectate
        30
    delectate  
       2011-12-24 21:25:07 +08:00
    用sed或者awk剔除重复的啊
    vibbow
        31
    vibbow  
    OP
       2011-12-24 21:26:36 +08:00
    @delectate Windows服务器...
    delectate
        32
    delectate  
       2011-12-24 21:27:51 +08:00
    @vibbow ,easy,有 for win版本的。
    vibbow
        33
    vibbow  
    OP
       2011-12-24 21:29:12 +08:00
    @delectate 觉得这工具应该不适合我,因为我这是无差别的全文搜索...
    要是去重的话那速度应该不比数据库建索引好到哪去...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2131 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 16:12 · PVG 00:12 · LAX 08:12 · JFK 11:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.