V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kafka0102  ›  全部回复第 8 页 / 共 9 页
回复总数  171
1  2  3  4  5  6  7  8  9  
2012-04-06 00:33:20 +08:00
回复了 kafka0102 创建的主题 分享创造 推酷网内测,欢迎申请使用
@benzhe 多谢建议,过段时间我看看这块的处理。
2012-04-05 23:57:55 +08:00
回复了 kafka0102 创建的主题 分享创造 推酷网内测,欢迎申请使用
使用过的朋友给些意见贝?诚恳的接受任何批评和指点。
2012-04-05 20:09:18 +08:00
回复了 kafka0102 创建的主题 分享创造 推酷网内测,欢迎申请使用
@elgoog 那得握个手了。可惜好久没更新博客了,惭愧阿!
2012-04-05 18:38:26 +08:00
回复了 kafka0102 创建的主题 分享创造 推酷网内测,欢迎申请使用
@Zjinys 正文页都给出转载的链接了。如果有部分网站拒绝转载,那也只能特殊处理下了,多数网站应该没有这个问题。
2012-04-05 13:58:04 +08:00
回复了 kafka0102 创建的主题 分享创造 推酷网内测,欢迎申请使用
申请的朋友请直接到网站申请阿。今天申请的有些多,网站刚内测,我要观察下效果和修复一些问题,有的会晚些发放邀请码,敬请理解。
2012-04-05 11:28:35 +08:00
回复了 kafka0102 创建的主题 分享创造 推酷网内测,欢迎申请使用
@jimbray 域名没备案阿。。。
2012-04-05 09:42:29 +08:00
回复了 kafka0102 创建的主题 分享创造 推酷网内测,欢迎申请使用
@master 因为我其实不会前端,bootstrap还是很顺手的。
2012-04-05 09:41:39 +08:00
回复了 kafka0102 创建的主题 分享创造 推酷网内测,欢迎申请使用
@uil330 域名绑定到了国外vps。如果你对网站感兴趣,我可以把国内ip发给你绑定hosts。
2012-04-05 02:27:13 +08:00
回复了 akann 创建的主题 问与答 有什么简便办法判断网页是哪国语言?
@akann 语言识别是个技术问题了。技术上来说是个分类问题。这方面的online api可能有一些,如果是工具包的话,tika对英文类语种支持的不错。语言识别最麻烦的是多语言混合的情况,比如一篇中文技术文章,结果以代码为主,中文很少,自然就倾向于识别成英文,但实际要处理成中文。我现在就是在tika的基础上,对亚洲语系的语料做了些处理,计算分类的概率时加了些判断,尽量让目标的中文页面识别准确些。
2012-03-22 05:56:41 +08:00
回复了 money 创建的主题 Java 求java经典书籍,谢啦
不看java书很多年了,也就挑我很久之前看过的说了。
j2se的:effective java、thinking in java、java手册。除了语法,主要是util和io库的使用,关于util库中集合类和并发类也有专门这方面的书。
j2ee方面有孙卫琴的jsp书、j2ee withou ejb、j2ee核心模式等。
2012-03-16 16:23:10 +08:00
回复了 virushuo 创建的主题 奇思妙想 有没有人想做个更有意思的“科技媒体”
不知道我做的东西 www.tuicool.com 算不是更有意思的?目前主要还是对科技新闻和技术文章的推荐,除了知名的新闻站点内容,我也在努力去挖掘有意思的小众博客内容。至于是内容展现方式,其实我觉得更多的是个人偏好。我现在做的列表页就是纯标题的,因为我本身更喜欢花少量时间把标题都扫一遍,然后看到合适的就点过去。不过也有朋友跟我说,他更喜欢摘要方式,能更加确定是否有必要点内容页,而且内容页有的太长,也没精力看完。至于摘要提取,除非是人工提取,纯算法的话想要精确提取会比较麻烦,相对提取第一段内容就简单些。
2012-03-14 00:12:50 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@mlzboy 其实开始是想基于浏览器内核的,但webkit的文档太少、gecho的依赖太多,都不大可能在短时间搞定,后来使用gecho的java版本的XPCOM接口能搞了,不过在移植过程中存在一些问题就放弃了。。。我研究生时,还使用过VC内嵌的浏览器内核搞过,能获得布局信息,但因为时间关系,最终论文出来了,东西没做出来。
2012-03-12 00:10:37 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@mlzboy 什么工具?如果是说我的正文抽取程序,也就是使用jsoup做html解析。
2012-03-11 15:21:29 +08:00
回复了 alex_ilex 创建的主题 云计算 慎用盛大云主机
流量是只按进入的流量算价钱的。。。
不过盛大云做的确实够烂,就是价格便宜,适合穷人。。。
我也遇到过被封情况,事后连个通知都没有。。。
备案都三个月了,还没搞定。。。
2012-03-11 15:16:00 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
@kingwkb
就我对readability试验效果来看,它只是对主体内容的提取,而不是准确的对正文提取,所以诸如相关文章、评论、广告、一些正文辅助信息等都可能被提出来(它是过滤了链接,但相关文本段落都在,如果要做手机阅读,这些信息是不可接受的),这种提取效果其实是很好做的,只要找到正文密度最大的段落就ok。而要准确提取正文,除了新闻页因为通常排版正规文本标准容易做外,面对诸如博客等各种来源,其实比较难解决的问题有:1)如何准确剔除评论信息,2)当正文内容简短,比如只有几行文字或图片,而诸如评论留言等干扰信息较多时,如何提取,3)当正文主要是链接内容时,如何提取,4)当正文内容格式复杂,比如包含多段代码、标签格式混乱,如何确定最大粒度的正文段,5)如何准确去除诸如广告、相关文章、诸如分享等辅助信息。其实效果做的好不好,多找几种不同的网页测试就知道了。在我做正文抽取时,其实就是找不同的网页做case,算法的细节策略也是不断调整,现在效果基本可以接受,但也存在一些bad case没有解决。因为我还根据一组页面做模版抽取,现在模版抽取效果就更差一些。就网页信息抽取来说,我觉得它是很有意思的事情,因为它可以做的事情实在太多了,除了抽正文,比如抽取评论、抽取新闻导航、抽取网站导航结构、抽取视频、商品等结构化信息、网页类型识别、网站类型识别等,就看用在什么地方了。
2012-03-11 02:31:33 +08:00
回复了 kingwkb 创建的主题 Python 花了3个晚上,把readability最新的1.7.1转成了python版的
如果是做正文抽取的话,想要做到很精准的效果是难的(尤其是准确剔除掉正文周边内容),尤其是来自一些不正规的站点网页。我能找到的相关开源产品有:boilerpipe、goose、jReadability、roadrunner(这个是抽模版的),还有一个忘记名字了,他们的效果都算不上太好(对正规的新闻站点会好些)。我自己实现了一个正文抽取的程序(也是很复杂的说,就别要代码了,暂时没有开源计划),可供测试的页面是:http://www.tuicool.com/te 。实际上,现在的实现算法不是我最初的想法,如果能基于浏览器内核分析出页面布局以及内容信息,对页面主体内容(不单单限于正文内容)的抽取效果会更好,而应用场景就更多了,这方面的经典算法就是微软研究院的VIPS,基于它也衍生了一堆论文。
2012-01-06 18:11:26 +08:00
回复了 friskfly 创建的主题 问与答 新浪微博API中怎么获取当前用户昵称?
人家都说了找了半天没找到。。。。
这种问题应该去微博论坛问的。。。
不过,其实我当初也遇到这个问题(版本1),就是验证完后不知怎么拿到用户信息,因为account/verify_credentials 这个API名称太隐讳没注意到。如果是版本2,需要先account/get_uid拿到uid,再show出user info。
2012-01-04 22:59:34 +08:00
回复了 Tianpu 创建的主题 PHP 文本提取关键字有好的建议吗?
关键字抽取的最简单思路就是计算词频(如果有语料,可以拿到idf算tf*idf),取top k的结果。但是使用的词不能是所有的词,所以需要做些处理。这个处理也就两种思路,一个是人工构造候选的主题词表(可以通过语料筛选出来),或者通过辅助程序剔除掉无意义的词。不过,要想得到更好效果,比如歧义词的处理、上下文无关的词的处理、出现频率不高但更能表现主题的词提取、主题词的粒度调整,就不是计算词频能搞定的了。只就统计词频来说,其实也用不上什么库,我也没有看到专门这样的库。
@webgeekman 我自己写了一个http加密代理程序 https://github.com/kafka0102/xhttpproxy 可能和你的需求有些像,可以参考下。它接收特定格式的tcp或http(依赖选择使用的avro传输协议)请求(传输内容经过了加密),解析出来后通过httpclient请求http页面,然后将结果加密后返回给客户端。这个东西就是放在国外的vps上的,解决墙的问题。
2011-12-29 12:06:28 +08:00
回复了 avatasia 创建的主题 MongoDB 盛大mongoic云服务
我猜测啊,是他们解析了oplog,对每次操作修改的记录(需要先查询出记录再更新)做了备份,这样就可以恢复任意时刻的数据。
1  2  3  4  5  6  7  8  9  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1701 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 16:42 · PVG 00:42 · LAX 08:42 · JFK 11:42
Developed with CodeLauncher
♥ Do have faith in what you're doing.