V2EX › kafka0102 的所有回复 › 第 8 页 / 共 9 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9

❮

❯

2012-04-06 00:33:20 +08:00

回复了 kafka0102 创建的主题 › 分享创造 › 推酷网内测，欢迎申请使用

@benzhe 多谢建议，过段时间我看看这块的处理。

2012-04-05 23:57:55 +08:00

回复了 kafka0102 创建的主题 › 分享创造 › 推酷网内测，欢迎申请使用

使用过的朋友给些意见贝？诚恳的接受任何批评和指点。

2012-04-05 20:09:18 +08:00

回复了 kafka0102 创建的主题 › 分享创造 › 推酷网内测，欢迎申请使用

@elgoog 那得握个手了。可惜好久没更新博客了，惭愧阿！

2012-04-05 18:38:26 +08:00

回复了 kafka0102 创建的主题 › 分享创造 › 推酷网内测，欢迎申请使用

@Zjinys 正文页都给出转载的链接了。如果有部分网站拒绝转载，那也只能特殊处理下了，多数网站应该没有这个问题。

2012-04-05 13:58:04 +08:00

回复了 kafka0102 创建的主题 › 分享创造 › 推酷网内测，欢迎申请使用

申请的朋友请直接到网站申请阿。今天申请的有些多，网站刚内测，我要观察下效果和修复一些问题，有的会晚些发放邀请码，敬请理解。

2012-04-05 11:28:35 +08:00

回复了 kafka0102 创建的主题 › 分享创造 › 推酷网内测，欢迎申请使用

@jimbray 域名没备案阿。。。

2012-04-05 09:42:29 +08:00

回复了 kafka0102 创建的主题 › 分享创造 › 推酷网内测，欢迎申请使用

@master 因为我其实不会前端，bootstrap还是很顺手的。

2012-04-05 09:41:39 +08:00

回复了 kafka0102 创建的主题 › 分享创造 › 推酷网内测，欢迎申请使用

@uil330 域名绑定到了国外vps。如果你对网站感兴趣，我可以把国内ip发给你绑定hosts。

2012-04-05 02:27:13 +08:00

回复了 akann 创建的主题 › 问与答 › 有什么简便办法判断网页是哪国语言？

@akann 语言识别是个技术问题了。技术上来说是个分类问题。这方面的online api可能有一些，如果是工具包的话，tika对英文类语种支持的不错。语言识别最麻烦的是多语言混合的情况，比如一篇中文技术文章，结果以代码为主，中文很少，自然就倾向于识别成英文，但实际要处理成中文。我现在就是在tika的基础上，对亚洲语系的语料做了些处理，计算分类的概率时加了些判断，尽量让目标的中文页面识别准确些。

2012-03-22 05:56:41 +08:00

回复了 money 创建的主题 › Java › 求java经典书籍,谢啦

不看java书很多年了，也就挑我很久之前看过的说了。
j2se的：effective java、thinking in java、java手册。除了语法，主要是util和io库的使用，关于util库中集合类和并发类也有专门这方面的书。
j2ee方面有孙卫琴的jsp书、j2ee withou ejb、j2ee核心模式等。

2012-03-16 16:23:10 +08:00

回复了 virushuo 创建的主题 › 奇思妙想 › 有没有人想做个更有意思的“科技媒体”

不知道我做的东西 www.tuicool.com 算不是更有意思的？目前主要还是对科技新闻和技术文章的推荐，除了知名的新闻站点内容，我也在努力去挖掘有意思的小众博客内容。至于是内容展现方式，其实我觉得更多的是个人偏好。我现在做的列表页就是纯标题的，因为我本身更喜欢花少量时间把标题都扫一遍，然后看到合适的就点过去。不过也有朋友跟我说，他更喜欢摘要方式，能更加确定是否有必要点内容页，而且内容页有的太长，也没精力看完。至于摘要提取，除非是人工提取，纯算法的话想要精确提取会比较麻烦，相对提取第一段内容就简单些。

2012-03-14 00:12:50 +08:00

回复了 kingwkb 创建的主题 › Python › 花了3个晚上，把readability最新的1.7.1转成了python版的

@mlzboy 其实开始是想基于浏览器内核的，但webkit的文档太少、gecho的依赖太多，都不大可能在短时间搞定，后来使用gecho的java版本的XPCOM接口能搞了，不过在移植过程中存在一些问题就放弃了。。。我研究生时，还使用过VC内嵌的浏览器内核搞过，能获得布局信息，但因为时间关系，最终论文出来了，东西没做出来。

2012-03-12 00:10:37 +08:00

回复了 kingwkb 创建的主题 › Python › 花了3个晚上，把readability最新的1.7.1转成了python版的

@mlzboy 什么工具？如果是说我的正文抽取程序，也就是使用jsoup做html解析。

2012-03-11 15:21:29 +08:00

回复了 alex_ilex 创建的主题 › 云计算 › 慎用盛大云主机

流量是只按进入的流量算价钱的。。。
不过盛大云做的确实够烂，就是价格便宜，适合穷人。。。
我也遇到过被封情况，事后连个通知都没有。。。
备案都三个月了，还没搞定。。。

2012-03-11 15:16:00 +08:00

回复了 kingwkb 创建的主题 › Python › 花了3个晚上，把readability最新的1.7.1转成了python版的

@kingwkb
就我对readability试验效果来看，它只是对主体内容的提取，而不是准确的对正文提取，所以诸如相关文章、评论、广告、一些正文辅助信息等都可能被提出来（它是过滤了链接，但相关文本段落都在，如果要做手机阅读，这些信息是不可接受的），这种提取效果其实是很好做的，只要找到正文密度最大的段落就ok。而要准确提取正文，除了新闻页因为通常排版正规文本标准容易做外，面对诸如博客等各种来源，其实比较难解决的问题有：1）如何准确剔除评论信息，2）当正文内容简短，比如只有几行文字或图片，而诸如评论留言等干扰信息较多时，如何提取，3）当正文主要是链接内容时，如何提取，4）当正文内容格式复杂，比如包含多段代码、标签格式混乱，如何确定最大粒度的正文段，5）如何准确去除诸如广告、相关文章、诸如分享等辅助信息。其实效果做的好不好，多找几种不同的网页测试就知道了。在我做正文抽取时，其实就是找不同的网页做case，算法的细节策略也是不断调整，现在效果基本可以接受，但也存在一些bad case没有解决。因为我还根据一组页面做模版抽取，现在模版抽取效果就更差一些。就网页信息抽取来说，我觉得它是很有意思的事情，因为它可以做的事情实在太多了，除了抽正文，比如抽取评论、抽取新闻导航、抽取网站导航结构、抽取视频、商品等结构化信息、网页类型识别、网站类型识别等，就看用在什么地方了。

2012-03-11 02:31:33 +08:00

回复了 kingwkb 创建的主题 › Python › 花了3个晚上，把readability最新的1.7.1转成了python版的

如果是做正文抽取的话，想要做到很精准的效果是难的（尤其是准确剔除掉正文周边内容），尤其是来自一些不正规的站点网页。我能找到的相关开源产品有：boilerpipe、goose、jReadability、roadrunner（这个是抽模版的），还有一个忘记名字了，他们的效果都算不上太好（对正规的新闻站点会好些）。我自己实现了一个正文抽取的程序（也是很复杂的说，就别要代码了，暂时没有开源计划），可供测试的页面是：http://www.tuicool.com/te 。实际上，现在的实现算法不是我最初的想法，如果能基于浏览器内核分析出页面布局以及内容信息，对页面主体内容（不单单限于正文内容）的抽取效果会更好，而应用场景就更多了，这方面的经典算法就是微软研究院的VIPS，基于它也衍生了一堆论文。

2012-01-06 18:11:26 +08:00

回复了 friskfly 创建的主题 › 问与答 › 新浪微博API中怎么获取当前用户昵称？

人家都说了找了半天没找到。。。。
这种问题应该去微博论坛问的。。。
不过，其实我当初也遇到这个问题（版本1），就是验证完后不知怎么拿到用户信息，因为account/verify_credentials 这个API名称太隐讳没注意到。如果是版本2,需要先account/get_uid拿到uid，再show出user info。

2012-01-04 22:59:34 +08:00

回复了 Tianpu 创建的主题 › PHP › 文本提取关键字有好的建议吗？

关键字抽取的最简单思路就是计算词频（如果有语料，可以拿到idf算tf*idf），取top k的结果。但是使用的词不能是所有的词，所以需要做些处理。这个处理也就两种思路，一个是人工构造候选的主题词表（可以通过语料筛选出来），或者通过辅助程序剔除掉无意义的词。不过，要想得到更好效果，比如歧义词的处理、上下文无关的词的处理、出现频率不高但更能表现主题的词提取、主题词的粒度调整，就不是计算词频能搞定的了。只就统计词频来说，其实也用不上什么库，我也没有看到专门这样的库。

2012-01-04 16:22:24 +08:00

回复了 webgeekman 创建的主题 › 问与答 › Java如何监听TCP请求，并将请求转为Http发送，将返回结果再以TCP协议返回请求方？

@webgeekman 我自己写了一个http加密代理程序 https://github.com/kafka0102/xhttpproxy 可能和你的需求有些像，可以参考下。它接收特定格式的tcp或http（依赖选择使用的avro传输协议）请求（传输内容经过了加密），解析出来后通过httpclient请求http页面，然后将结果加密后返回给客户端。这个东西就是放在国外的vps上的，解决墙的问题。

2011-12-29 12:06:28 +08:00

回复了 avatasia 创建的主题 › MongoDB › 盛大mongoic云服务

我猜测啊，是他们解析了oplog，对每次操作修改的记录（需要先查询出记录再更新）做了备份，这样就可以恢复任意时刻的数据。

1 2 3 4 5 6 7 8 9

❮

❯