V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fange01
V2EX  ›  程序员

社工库的想法

  •  
  •   fange01 · 2014-04-20 11:43:16 +08:00 · 17772 次点击
    这是一个创建于 3859 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网站可以公开下载的网站泄露的数据库大约有200G。
    把这些数据库整理一下,做个社工库,防止被骗子诈骗是个不错的思路。
    偶尔搞搞营销也可以。
    这些库各种各样,后缀也挺多txt、mdb、sql甚至excel
    问题
    1.一般个人使用采用什么样的架构搭建
    看到比较多的是php+mysql,数据库都导入到mysql重新建立索引
    网上也有几个开源的go语言
    还有泄露的社工查询网站 搜云的源码和库结构
    也有把所有库存放在某个文件夹,通过软件来检索,我想是类似notepad++或者UE这种吧
    求推荐,个人使用该如何选择?

    2.是个人电脑运行,还是搞个二手服务器放在家里,还是vps

    著名的md5查询网站xmd5,汪利辉说自己的服务器是放在家里。
    当然我做这个不想公开只是方便自己使用。
    数据搞好了放在移动硬盘需要的时候跑一下,靠谱不?

    3.整理数据
    大量数据库去重,合并,导入,是否有好的思路或者教程

    4.现在常用密码都已经被泄露,是否有一种新的机制来代替现有的密码策略。
    比如1password之类,大家有什么好的想法?
    22 条回复    2014-12-27 21:20:52 +08:00
    Suanlatang
        1
    Suanlatang  
       2014-04-20 11:50:57 +08:00
    记得以前有这么个网站。。由于数据查询量太大。。关了。。
    jun0205
        2
    jun0205  
       2014-04-20 12:11:09 +08:00
    这些数据的整理是一个非常耗时的工作。
    vibbow
        3
    vibbow  
       2014-04-20 12:30:29 +08:00   ❤️ 1
    全存成文本文档,可以用我的这个脚本全文搜索。
    https://gist.github.com/vibbow/8569991
    Cyrils
        4
    Cyrils  
       2014-04-20 12:37:30 +08:00
    如果是公开的话。纯粹是造轮子了。。太多了。。。
    hacri
        5
    hacri  
       2014-04-20 12:38:54 +08:00
    简单的mysql扛不住吧,而且索引检索部分肯定得单独做。试试nosql?
    v223344
        6
    v223344  
       2014-04-20 12:48:25 +08:00
    密码数据方便分享下吗
    fange01
        7
    fange01  
    OP
       2014-04-20 13:27:44 +08:00
    @Suanlatang 现在也有很多。
    fange01
        8
    fange01  
    OP
       2014-04-20 13:48:46 +08:00
    @vibbow 感谢分享。晚上试试。
    fange01
        9
    fange01  
    OP
       2014-04-20 13:49:41 +08:00
    @hacri 嗯,就是想多咨询下大家的一件。
    manoon
        10
    manoon  
       2014-04-20 21:21:32 +08:00
    无聊的时候把那些数据转成MONGODB了。。。以为比其它数据库要轻松很多,结果,呵呵。
    a3587556
        11
    a3587556  
       2014-04-21 01:05:54 +08:00 via iPhone
    试试Sphinx
    7gong
        12
    7gong  
       2014-04-21 08:44:52 +08:00 via Android
    @manoon 详细说说,我正准备这么干呢,哪个环节出问题了
    duoxing
        13
    duoxing  
       2014-04-21 10:11:04 +08:00
    @fange01 比如哪里还有?
    isaced
        14
    isaced  
       2014-04-22 09:02:18 +08:00
    Mongodb可能会很合适。
    Zuckonit
        15
    Zuckonit  
       2014-04-22 10:44:47 +08:00
    @vibbow 可否分享下密码数据, thanks
    vibbow
        16
    vibbow  
       2014-04-22 11:55:50 +08:00
    @Zuckonit 现在就留了一个csdn的,平常当模拟数据来源用。
    qq2511296
        17
    qq2511296  
       2014-04-22 14:18:39 +08:00
    594sgk.com 你是说这个网站麽?
    a2z
        18
    a2z  
       2014-04-22 20:01:51 +08:00
    很多人用elasticsearch,用solr的也不少
    the13matrix
        19
    the13matrix  
       2014-04-22 23:27:43 +08:00
    php+mysql,上亿条数据,查询时等同于卡死好么。
    整理好的社工库以文本方式存储。自己写查询脚本:需要查询的时候,先把整个文件载入内存,以后就在内存里查找。速度比sql语句快10倍不止。

    另外,别想拿社工库用做合法用途。拿别人网站的数据用做自己产品,这永远都是不合情不合理不合法的。
    manoon
        20
    manoon  
       2014-04-24 21:51:57 +08:00
    @7gong 但也不是出问题。就是性能上面,没有想象的那么NB。
    导数据,花了很长时间。查询的效率也不是非常的快------可能跟机器配置也有关系。
    johnnyR
        21
    johnnyR  
       2014-06-29 17:18:28 +08:00
    @fange01 你的运行正常吗?我也来本地搭建一下
    johnnyR
        22
    johnnyR  
       2014-12-27 21:20:52 +08:00 via Android
    @a2z 请问你会配置吗?我的系统是ubuntu 搞了很久都不行
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1027 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:21 · PVG 04:21 · LAX 12:21 · JFK 15:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.