V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
simapple
V2EX  ›  问与答

我想做一个行业内的搜索,或者“搜索引擎”,有一些细节的问题想咨询一下

  •  1
     
  •   simapple · 2014-04-01 13:37:37 +08:00 · 2139 次点击
    这是一个创建于 3678 天前的主题,其中的信息可能已经有所发展或是发生改变。
    数据抓取基本上没有问题 也不会涉及特别复杂的 scrapy 完全可以搞定 我打算抓取 分词 格式化入库 都用python

    1.分词有没有什么建议,我知道大概是2种 一种是使用现有的词库进行分成,还有一种是用机器学习,不断的识别新词,词库也就在不断的更新,由于对算法这块不是很熟练,现成的模块里nltk 比较好,但是不支持中文,所以分词这块需要带有现成词库的用哪个比较合适?
    2.我不是很清楚对于大量数据的搜索是怎么做的,是先检索关键词再在做全文搜索?
    3.对于数据存储这块,我用的mongodb,目前有几百万条的数据,以后会逐渐增加大概维持在2-3千万左右的数据,用mysql 能行吗?mongodb的话 有没有不合适的地方?

    我是web程序开发,对搜索和数据这块不是特别了解,都是自己边学边练的,也不要求有多么精妙的算法,现在一点一点在从各种算法研究,也有点太慢了,希望有过这方面开发和经验的,给点建议,先谢过
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1225 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 18:14 · PVG 02:14 · LAX 11:14 · JFK 14:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.