V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  SlipStupig  ›  全部回复第 68 页 / 共 90 页
回复总数  1786
1 ... 64  65  66  67  68  69  70  71  72  73 ... 90  
2016-05-22 10:56:07 +08:00
回复了 brick713 创建的主题 程序员 防刷和流量清洗的讨论~请教大家的看法
封 IP 和封短信这些办法都不太好, IP 和短信资源有可能失效,如果误杀可能对用户造成困扰,主要还是加强风控,我提一下我的想法。
1.异常行为机器学习,目前我了解的像 JD 和唯品会这块都在做,通过历史日志进行训练,让机器主动识别一些异常流量,对一些异常进行一些限制,比如出现二代验证码等一些技术手段参与进行智能调控(这里限制的不是 IP 是账号)
2.对刷单本质进行进行分析,得出一个结论,为什么会出现刷单,针对原因进行提高成本,和人为进行风控,比如:短期封杀账号,对账号进行身份认证等等,这块更多是业务。
2016-05-20 22:26:54 +08:00
回复了 FlowMEMO 创建的主题 程序员 程序员该如何保管好自己的私钥?
训练一只鹦鹉让它记住你的秘钥,每次要用就问鹦鹉,假如鹦鹉死了,秘钥就没了,这个我叫“秘钥生命周期”哈哈哈!
2016-05-20 21:34:14 +08:00
回复了 aias 创建的主题 Python 如何结束掉进程?
1. p1.terminate
2.signal
3. kill -9 pid
2016-05-20 16:33:40 +08:00
回复了 taevas 创建的主题 Apple apple id 严重有问题
首先得知道账号密码了才能换啊!
@mhtt 前提还是大家愿意交心,不愿意交心,啥都没用
2016-05-20 14:42:08 +08:00
回复了 97world 创建的主题 前端优化 如何完善网站对无障碍浏览的支持?
国内的一些政府网站做法是鼠标触碰到后就会自动读出语音并显示文字,如果鼠标没动就什么都不做,这样的缺点是,假如对方又聋又瞎就没办法了(这样还能访问网站真心佩服),还有正常人不能接受(全是机器合成的语音听的好难受)
2016-05-20 14:36:27 +08:00
回复了 david2016 创建的主题 程序员 大家如何看待技术人员的面试?
我比较认同的你想法,负责技术面试人也不是神,总有看走眼的时候!所以你多试几家,也许能找到合适的,如果你试了一堆都不合适,只能说甲方实在是都是庸才,考虑自己出来做吧!
你不要感觉,别人剽窃了你的创意或者老天不帮你。你应该感到高兴,你的想法是正确的,而且有投资人认可了你的想法。至于代码值多少并不重要,关键是你的想法得到了印证!
@Ouyangan 目前我知道的是海南 xx 后勤有这待遇,其余的听的没听过,我一个兄弟是做机器人视觉的基本上他第一次想走的时候跟领导谈了一下,领导就这么干的,党国不差这个钱,只要你能出成绩,私企老板别想了根本不可能有!
@Livid 最近 Livid 对离职话题好像特别感兴趣啊!
其实老板留人无非是两种情况。
1.很多情况是给双方一个台阶下!如果真心要留人,就让员工开条件,工资不够涨工资长得你觉得满意为止,权利不够给升职,女朋友或者老婆在外地,给女朋友或者老婆解决工作,有房贷压力给无息贷款,孩子要上学解决学区等等只要能做出这种的老板人不会太坏,一定能把人留下来!
2.还有一个就是做给其他人看的,我是一个爱才的人,你看 xx 走我都留了好几次无奈人各有志我也不勉强,稳定其它员工的想法
2016-05-19 17:45:35 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@binux 首先感谢你积极的回复,你这种质疑我本来不想回你的,因为你怀疑我有没能力没任何意义。
我只是想知道用什么算法或者一些其它比较好的方法会比较好,我认为这种碎片化的方案带来额外的查询和存储,如果所有的功能都是这种零散代码维护起来我不认为会有什么好,所以这种显然不是最优的方案带来的额外付出,在我看来多少都是浪费。
2016-05-19 15:22:55 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@fcicq 觉得可行
2016-05-19 14:12:57 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@fivesmallq 抓取一次等几秒那就不会出现一个抓取自适应的问题,我等足够长的时间就行,问题是我每天都要抓取大量新的网站,之前我是完全不知道的,也就是我每次抓取一个新站点基本上都在等,这样会导致抓取特别慢。
按照你的方法,我还多了一个新挑战,我假设一个非常乐观的情况,当我收录网站在 10 万级别的时候,假设我每个站点的快照内容是 100 个 URL ,那么我得存 1000 万这样的响应值,然后分批计算他们的平均响应值....这个成本有点高啊!
2016-05-19 13:40:47 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@fivesmallq 这样能控制速度?
2016-05-19 13:09:49 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@onion83
@xiamx 感谢两位,我好好研究一下
2016-05-19 12:04:34 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@tuutoo 第一次抓取是未知的,如果对方能承受,速度就明显下降了,如果是这样预设值的方式的话,不如设置级别去减少
2016-05-19 11:52:28 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@anyforever 今天才发现 google 和百度是靠抢劫起家的啊
2016-05-19 02:06:00 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@menc 感谢,我也在研究看怎么实现
@shiny
2016-05-19 01:17:46 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@binux 每天都又大量新网站,现在已经抓死了好几个站了,基本上不敢抓了
1 ... 64  65  66  67  68  69  70  71  72  73 ... 90  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5201 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 43ms · UTC 09:19 · PVG 17:19 · LAX 02:19 · JFK 05:19
Developed with CodeLauncher
♥ Do have faith in what you're doing.