V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  murmur  ›  全部回复第 1228 页 / 共 1237 页
回复总数  24738
1 ... 1220  1221  1222  1223  1224  1225  1226  1227  1228  1229 ... 1237  
2016-04-22 14:27:34 +08:00
回复了 VmuTargh 创建的主题 分享发现 NativeScript(不是 NaiveScript!)
Telerik 我记得以前不是搞 c#控件的么
@processzzp throws ExcitedException
2016-04-22 08:29:41 +08:00
回复了 xiaoshengyige 创建的主题 程序员 大家对于逻辑稍复杂的代码是怎么阅读的?
允许调试是坠吼的,不允许调试就只能自己理逻辑记笔记了
提醒楼上那些 996 当没事的 一定要坚持吃早饭 每次体检都有人查出胆囊息肉 这东西就跟不吃早饭有很大关系 胆囊息肉如果变化不明显还好 大了就要手术
还有个同事 忘了 I 度还是 II 度房室阻滞的 这都不拿体检报告当回事 早晚要吃不了兜着走
996 问题不止是简单的 996 要求 996 就是有 917 的时候
@keifer 想多了, wp 的安卓计划已经流产了,微软最靠不住了
2016-04-20 15:47:53 +08:00
回复了 9hills 创建的主题 Android 感觉现在 Android 上很多 APP 的设计水平都很高
@MASAILA 你在黑知乎吧,知乎大家都是推荐直接用 wap 页面
2016-04-20 13:58:12 +08:00
回复了 SlipStupig 创建的主题 程序员 分享一个有趣的小发现
@SlipStupig 万物基于米 ui 开发 所以是中国人搞的多
2016-04-20 08:21:41 +08:00
回复了 SlipStupig 创建的主题 程序员 分享一个有趣的小发现
scrapy 这个怎么看也不像国人做的项目。。
2016-04-20 07:46:33 +08:00
回复了 SlipStupig 创建的主题 程序员 分享一个有趣的小发现
nutch 是啥东西呢?
于是说版权 国内研究 到不说国内看不起 java 的多吧?
2016-04-19 18:23:02 +08:00
回复了 cjsoft 创建的主题 问与答 同学的 MacBookPro 被 rm -rf /了
楼主快给自己买保险
2016-04-19 07:58:11 +08:00
回复了 kyrre 创建的主题 程序员 有没有好用的打标签库?能带有点自然语言处理的最好
根据书名分类?我认为做不到,因为信息是在太少了,分词都分不出来,何况还有标题党
比如轮回的拉格朗日 讲什么的 数学?
2016-04-18 22:01:42 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
@SlipStupig 这页我就没看到 md5 和 sha
2016-04-18 21:46:47 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
@SlipStupig 问题 bloomfilter 是 hash 到位点上的。。撞起来不要太容易
2016-04-18 16:54:51 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
另外补充一下,新浪新闻那个不适合作为考点,这种新闻网站他是希望你去爬的,只要别过分,因为有竞争,所以收录的越多越全越好,如果这个问题放到 3 年前答,爬新闻类网站首选他的 RSS ,可惜现在 RSS 用的越来越少,死链一是多二是更新不及时
一声叹息
但是新浪微博不一样,这个东西压根就没想让你爬,他自己有自己的搜索引擎,我们以前做监控的时候,就是用他的站内搜索,新浪微博和新闻不一样,没有固定的信息源,也就是说你不知道一个重要的东西是啥时候冒出来的,所以只能监控重要关键词
新浪微博还一个很恶心一点就是移动端(官方客户端)的乱序时间线,他会随机打乱时间,把以前很老的数据挖出来当新的,貌似 pc 端还是正常的,这个真的没法理解为什么要这么做
以前可以爬微博的移动端,还有一部分人选择盗用 weico 什么的 key 来用,比爬页面容易很多,但是现在第三方微博客户端越来越少,能盗用的 key 也不多了,何况现在应该没什么客户端直接把 key 加密在 app 里吧,应该都是服务端中转一次
2016-04-18 16:47:19 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
B 新浪网本身肯定是防爬虫的,那么常见防爬虫的方式有哪些?
这个问题,新浪微博是冻结账号,必须手机解封,而且一个手机每天只能解封 5 个账号,这也是我读研的时候爬微博碰到的问题
验证码什么都弱爆了,真的
2016-04-18 16:46:04 +08:00
回复了 hxndg 创建的主题 Python 一面结束,总结爬虫的一些小问题,抛砖引玉
@mornlight 碰撞就碰撞呗,那又怎么样,又不是搜索引擎有漏掉必须手动补上的情况,新浪微博产生的数据在日千万级别,还是我上学刚开始的数据,现在早都日亿了,比起 bloomfilter ,你没爬到的数据能有多少能估计到么。。
1 ... 1220  1221  1222  1223  1224  1225  1226  1227  1228  1229 ... 1237  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5378 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 156ms · UTC 09:16 · PVG 17:16 · LAX 01:16 · JFK 04:16
Developed with CodeLauncher
♥ Do have faith in what you're doing.