V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  glacer  ›  全部回复第 5 页 / 共 13 页
回复总数  249
1  2  3  4  5  6  7  8  9  10 ... 13  
2019-01-02 15:53:13 +08:00
回复了 scalaer 创建的主题 程序员 有 sql 库/模版 吗?
简单的:正则;
复杂通用的:AST
2018-12-28 16:40:45 +08:00
回复了 boom7 创建的主题 程序员 求大佬指点,毕业一年的爬虫的职业发展
楼主你和我两年前几乎一模一样。
我也是毕业后进入某厂做爬虫,做了一年多后跳槽做了后端。做爬虫期间也做了不少破解工作,像验证码,js 加密破解,APP 的逆向等。
当时做久了觉得这份工作很无聊,平时的工作基本都是在做爬虫的修修补补,应对对方的反爬虫策略。业绩上我们基本都是背锅侠,一旦数据出了问题我们要第一时间顶上,数据没问题的时候就是理所应当。不过现在回想起来其实并不是那么无聊。很多人觉得写爬虫没有一点技术含量,没错,写一个爬虫确实很简单,但写一个「优雅」的爬虫却并不简单。一个靠浏览器模拟爬取的爬虫怎么能喝一个通过破解加密直接请求 API 的爬虫比呢?我在那一年的爬虫工作中最大的收获并不是写爬虫这个技能,而是在爬数据的过程中额外接触到的多个层面的知识。像 HTTP 协议,JavaScript,图像处理,机器学习,逆向等等,以及一些爬虫架构和服务,像去重、调度分发、断点续爬、分布式、缓存、数据库等,还有与其他数据上下游的合作中熟悉的整个数据处理流程和一些大数据的知识。这些基本都是在那一年的爬虫工作中获取到的知识,也是我现在能转型后端的一个原因。这份工作给我带来的不是某个专精的技能,而是拓宽的知识面。
在目前的大环境下,我还是不建议主业做爬虫,前景不是很明朗(合法性)。楼主可以多利用业余时间学一些感兴趣的方向转型,多去试试总会成功的。
2018-12-26 16:35:23 +08:00
回复了 mon3 创建的主题 Python 爬虫, mysql 唯一索引 重复数据 ID 会自增。请问怎么解决?
@EvilCult on duplicate key update 也会导致原 id 变化的
2018-12-19 10:57:15 +08:00
回复了 notgood 创建的主题 问与答 真的有必要打狂犬疫苗吗?
如果舔到的地方有开放性伤口就要打
2018-12-07 02:06:28 +08:00
回复了 nathandu 创建的主题 问与答 人品爆发,跳槽前突然获得升职机会
想知道楼主得到的是广发什么岗,有什么要求和难度?
2018-12-06 20:02:00 +08:00
回复了 NMmmm 创建的主题 问与答 深圳哪里有那种球球池玩,成人版的
@x86 成人版的,应该就是那种球
2018-12-06 18:44:33 +08:00
回复了 hiahia 创建的主题 问与答 广东什么时候才会有寒冬
明天降温了
2018-12-04 00:46:49 +08:00
回复了 echo404 创建的主题 PHP MySQL 解析器到底是如何选择索引的?
你第二次是命中缓存了... 在 SQL 中加上 SQL_NO_CACHE 禁用缓存试试。
2018-11-30 11:15:09 +08:00
回复了 showecho 创建的主题 程序员 PHP +mysql 如何执行一个长时间的导出任务?
这个应该是数仓的活
看他平时是否会学一些"不值钱"的技术。
2018-11-28 19:48:47 +08:00
回复了 codechaser 创建的主题 C C 中使用 goto 会被打吗?
用 goto 来跳出多重循环非常简洁易懂
2018-11-28 17:44:09 +08:00
回复了 leisurelylicht 创建的主题 Python What the f*ck Python !
@wohenyingyu03 小整数缓存我一个不是主写 Java 的都知道
2018-11-27 12:10:30 +08:00
回复了 alwayshere 创建的主题 程序员 为防采集,目前有哪些 js 检测 headless 浏览器的方法?
@glacer 更靠谱的还是埋点做行为分析
2018-11-27 12:10:03 +08:00
回复了 alwayshere 创建的主题 程序员 为防采集,目前有哪些 js 检测 headless 浏览器的方法?
不存在完美的反爬虫措施,只要爬虫想绕过反爬必然是有办法的。
简单的反 headless 爬虫,以 puppeteer 为例,可设置检查 navigator.webdriver 值
@AltairT 我们也是套路云,一般慢查询能在慢查询日志里查出来优化掉,但有些查询是在一定并发下才会慢,这种就比较头疼,只有在业务异常的时候才会被发现,比较被动。
@codelover2016 @jadec0der 现在就是用监控就去发现,但一些"坏"SQL 在业务低谷并不表现出慢查询的特征,只有在高峰期才会爆发,而一旦爆发就是一次线上故障...所以希望能在上线前就能除掉隐患。
1  2  3  4  5  6  7  8  9  10 ... 13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2086 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 01:42 · PVG 09:42 · LAX 18:42 · JFK 21:42
Developed with CodeLauncher
♥ Do have faith in what you're doing.