V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  crazybubble  ›  全部回复第 5 页 / 共 13 页
回复总数  254
1  2  3  4  5  6  7  8  9  10 ... 13  
2013-08-07 02:17:18 +08:00
回复了 hustlzp 创建的主题 分享创造 YProgrammer,分享Web开发资源的小站
赞资源
2013-08-07 02:15:43 +08:00
回复了 sujin190 创建的主题 Python python下有没有好用的规则引擎呐?
不如按照规则制定一个feature pipeline吧, 每条数据过一下这个pipeline,返回一串feature vector,然后这串feature vector可以反映数据符合规则的程度。比如假如你有规则A和B,数据d1,d2,d3. d1可能满足A不满足B;d2满足B不满足A;d3满足A也满足B。这样可以表达他们成:
d1: [1,0]
d2: [0,1]
d3: [1,1]
mongodb做tag什么的很方便,一个doc也就是一个item里,包含一个array用来存tag,然后给doc里的这个array做index
2013-08-01 00:53:51 +08:00
回复了 013231 创建的主题 问与答 在數據分析領域, R語言和Python相比有明顯優勢嗎?
这个我也想知道。想知道一些更多R相比python+scipy/numpy的优势。楼主有没有什么见解和发现呀?
2013-07-24 02:01:10 +08:00
回复了 shierji 创建的主题 问与答 求问,关于网页数据抓取的问题。
直接匹配的话,容易发生很多问题,比如有一些化学专有名词可能中文上会有常用的两种写法,我打个比方哦。。我不是很懂化学,二恶英和二噁英,就是2种写法,如果你的词库里只有一种的话,另一种就匹配不到拉,另一个问题就是,比如氯,和氯化钠,其实都属于化学名次,如果在匹配氯的时候,氯化钠出现在文本里,这个氯就会被提取到,这并不是你想要的把?还有一些情况是中文分词的模糊性导致的,比如“这瓶醋酸死我了。。”,那可能你会从这句话里提取到醋酸这个化学名词。。。

中文分词其实github上也有现成的分词器,https://github.com/fxsjy/jieba, 英文的也很多,你可以搜搜看,但是我不确定你这里因为是化学专有名词,分词的效果可能没有那么好。可能需要自己训练,你可以看看52nlp.com上的中文分词的几篇文章。先试试那个github的分词器把,不好的话再自己搞。
2013-07-23 11:00:45 +08:00
回复了 shierji 创建的主题 问与答 求问,关于网页数据抓取的问题。
我有一点好奇,如果你把文本都截取下来了,你要在其中找出化学单词的话,是不是还要对文本分词?这样的话你还要训练你自己的分词器把?
2013-07-23 10:59:21 +08:00
回复了 shierji 创建的主题 问与答 求问,关于网页数据抓取的问题。
第一个问题,可以有很多种解决办法,比如用正则表达式来取guokr的url。
第二个问题的话,google对各种不用api来爬它搜索结果的非法手段都挺严格的,换不换user agent其实影响不大,禁止访问会从多种方面来检验你是不是爬虫的,你可以
1. 试着用api(免费的search api的rate limit我记得也很少),好处是这是获取搜索结果的合法的手段
2. 试着找些代理服务器,适时的换ip
3. 在你的爬虫里随机的休息一段时间,让爬虫不要一直保持高频率的爬取。
2013-07-23 10:30:02 +08:00
回复了 Livid 创建的主题 分享发现 Socialcast
yammer在中国的公司里普及的程度怎么样?我觉得公司内部是需要这样一个东西来互相交流,然后知道大家在做什么的。
2013-07-15 15:23:58 +08:00
回复了 crazybubble 创建的主题 随想 异地恋爱的恋人要怎么让对方感到不是一个人
@dbfox 我也这么认为,让她的时间里充满着我,但是我们之间还有时差。
2013-07-15 15:22:51 +08:00
回复了 crazybubble 创建的主题 随想 异地恋爱的恋人要怎么让对方感到不是一个人
@sinxccc 嗯我也一直在努力着争取这样一个时间点,但是我自己都对未来很迷茫
2013-07-15 15:21:42 +08:00
回复了 crazybubble 创建的主题 随想 异地恋爱的恋人要怎么让对方感到不是一个人
@sinxccc 好想法!
2013-07-15 15:21:19 +08:00
回复了 crazybubble 创建的主题 随想 异地恋爱的恋人要怎么让对方感到不是一个人
@justfindu 内涵了
2013-07-15 01:52:24 +08:00
回复了 wickydong 创建的主题 Python 菜鸟问个flask的问题,在线等回复,=3=
赞楼上,试试PyCharm吧。
“自己挑,懂了”这种话,有没有想过女的听到这句话的感受
2013-06-23 08:04:05 +08:00
回复了 chuangbo 创建的主题 Reddit 我刚刚翻译了那个泄洪把人活活淹死的新闻,发到 reddit 了
发这个的目的是什么呢
2013-06-17 15:54:43 +08:00
回复了 darktiny 创建的主题 MacBook Air Macbook的键帽是不是很容易坏?
我的down arrow 2个月就坏了。。。好郁闷
2013-06-14 00:04:23 +08:00
回复了 MJ 创建的主题 问与答 音乐狂人 用music madman还是music madmen恰切?
Music Maniac
2013-06-06 09:44:29 +08:00
回复了 kenneth 创建的主题 程序员 搜索引擎排序算法如何设计?
基本上有2种理论来给搜索结果排位。一种是Vector Space Model, 简单来说就是把搜索的关键词(query)当成一个vector,你搜索到的每一个doc也当成一个vector,然后计算query和每一个doc之间的similarity,最相似的排在最前面。另一种是statistic language model,简单来说,对于搜索到的每个doc,计算出这个doc里所包含的词,能组成query的可能性,这个可能性越高的话,就代表这个doc越可能和query是相关的,所以排在前面。
2013-06-06 09:29:38 +08:00
回复了 coinpact 创建的主题 蘑菇 蘑菇们怎么吃比较好吃???
康熙有一集有教一道蒜烤杏鲍菇,我试了一下很不错
2013-06-01 07:49:47 +08:00
回复了 meteor2013 创建的主题 JavaScript 请问有没有办法刷新一个DIV,而不是刷新整个页面。
可以试试把div1里的div的那些初始状态记录下来,比如存在一个object里,然后点击刷新回到最初状态的时候,就把这些div的属性设置回初始状态。
1  2  3  4  5  6  7  8  9  10 ... 13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2196 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 50ms · UTC 05:31 · PVG 13:31 · LAX 22:31 · JFK 01:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.