首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
itskingname
V2EX  ›  推广

数据工程师妹子养成手记——数据库篇[盖楼送书]

  •  
  •   itskingname · 331 天前 · 4688 次点击
    这是一个创建于 331 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这篇文章没有代码,请放心阅读。

    程序员最宝贵的东西是生命,生命属于程序员只有一次。一个程序员的一生应该这样度过:当她回首往事的时候,她不会因为搭建环境浪费时间而悔恨,也不会因为集群无法运行而羞耻。这样,在她开发的时候,她能够说:“我的整个生命和全部精力,都已经献给了开发中最重要的事情——设计程序,实现程序和调 Bug。” —— P 酱。

    P 酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么?来数据组?让我来带?

    于是我和 P 酱~~生活~~工作在了一起。

    P 酱你会些什么?

    “我叫 P 酱,在 XX 大学读研二,爱好是拍照和被拍,大家可以在 B 站找到我跳舞的视频,比如 av170001。我的另外一个爱好是写代码……”

    当一个文科妹子说自己喜欢写代码的时候,整个办公室热闹了起来。

    “ P 酱,听说你喜欢写代码,那你写过什么东西吗?”新人介绍会议结束以后,我问 P 酱。

    “一般都是各种分析程序,我们的专业要做很多调查报告,他们都是用 Excel 来计算的。我喜欢用 Python 来把这些统计过程自动化。后来也写过自动写诗的程序、鬼畜视频生成器等等。”

    “真不敢相信你是文科生。这么说你的兴趣是数据分析方向咯?”

    “其实我对师父你做的爬虫很有兴趣。但是听说会经常和网站发生对抗?女孩子还是不要打打杀杀的好~”

    于是我让 P 酱负责对爬虫的原始数据进行清洗、整理并做简单的分析。

    一种船新的数据储存方式

    “ P 酱,爬虫抓到的原始数据是存放在 MongoDB 里面的,你的 Python 还不错吧,你试一试用 Python 来读写 MongoDB 看看。”

    “ MongoDB 是什么呀?”

    “是一个和 MySQL 不太一样的数据库。”

    “ MySQL 我知道,MongoDB 和 MySQL 有什么不一样呢?”

    “我举个例子,当你要插入数据的时候,你需要做的,就是‘插入’。咳咳,你不要脸红,我是指你不需要写 SQL 语句、不需要建表、不需要提前定义字段。仅仅只需要一行代码就能够实现了。我这里给你写了一篇文档,讲到了 MongoDB 的增删改查,你试一试。数据库已经给你搭建好了,你直接连上去用吧”

    半天以后。

    “师父,我已经会使用 MongoDB 啦。”

    “你读爬虫的原始数据,主要涉及到的就是查询操作,为了巩固插入、修改和删除的操作,再给你一个小任务吧。试一试写一个人员管理系统吧。”

    既然有关系,就整整齐齐放在一起看吧

    “ P 酱,你看起来很高兴的样子啊。”

    “因为我觉得 MongoDB 比起 MySQL 太简单了啊~”

    “你确定?那我看看你怎么对整行数据去重的?”

    “师父,我知道 distinct 关键字可以对一个字段去重。但是整行数据我是读出来用 Python 来去重的。”

    “这个时候你就要用到 MongoDB 的聚合查询了。文档已经给你写好了,拿去看吧。”

    “还有还有,这里你把店铺信息和菜单信息放在了两个集合里面,我怎么样才能把他们联表查询出来呢?”

    “联表查询是 MySQL 里面的操作,在 MongoDB 里面,没有,只有集合,所以叫做联集合查询更恰当一些。这也是要用到聚合查询,也在这个文档里面了。”

    再给你一个玩具吧。

    “ P 酱,之前让你做的爬虫数据监控系统怎么样了?”

    “功能已经做好了,但是有一个地方查询起来特别慢。我已经加过索引了,但还是很慢。怀疑是同时联了四个集合的数据造成的。”

    “这边的数据实际上每小时才更新一次,你没有必要每次刷新页面都去查询 MongoDB 的。我觉得是时候让你用一下 Redis 做缓存了。”

    “ Redis 就是那个内存数据库吗?我知道我知道。”

    “给你写了一份文档,包含 Redis 里面的各种数据类型和使用方式。你试一试把 Redis 和 MongoDB 结合起来看看能不能提高速度。”

    你怎么擅自加功能啊!

    “ P 酱,你怎么在爬虫监控系统的网页上加了一个广播窗口?”

    “呀,被师父发现了。因为我想到同一个爬虫可能会被几个人监控,所以就用 Redis 的发布订阅功能做出来了这个广播的功能。一旦爬虫状态发生改变,所有人都能收到推送。”

    “既然你这么闲,那不如加上账号登录功能,把权限验证也做上去?不同的人只能看到自己负责的爬虫。顺便你可以试一试用 Redis 实现……”

    “实现布隆过滤器和 Session 管理是吗?”

    “你怎么知道我要说什么?”

    “因为我早上看到你在文档上面更新了布隆过滤器和 Session 管理相关的内容啊~”

    红色的锁?

    “师父师父,你知道什么是 RedLock 吗?”

    “你学得这么快?都知道 RedLock 了? RedLock 是 Redis 官方给出的分布式锁的算法。已经有很多编程语言实现它了。”

    “原来 RedLock 只是一个算法啊……”

    为什么我学的这么快呢?

    “师父师父,我觉得很奇怪啊,为什么 MongoDB 和 Redis 我学得这么快呢?难道是因为他们本来就简单?还是因为我太聪明了?”

    “为什么你不说是因为你师父教的好呢?“

    “因为这是事实啊~不用我说出来~”

    “咳咳,实际上是因为两个原因。一是你一直通过项目驱动来学习,先有需求,然后再去学习实现这个需求所要涉及到的技能。所以你知道你学的东西能用来干什么,自然就能学得快……”

    “那第二个原因是什么呢?”

    “第二个原因,我先问你一个问题,你会搭建 Redis 集群吗?会搭建 MongoDB 集群吗?知道什么叫做哨兵吗?你知道如何优化 MongoDB 的启动参数吗?”

    “这…………好像都不知道额…………”

    “因为你的角色是数据工程师,不是数据库工程师,所以数据库搭建、底层优化这些内容我都给你跳过了。”

    “这些听起来都很重要啊,师父你会教我吗?”

    “你想经常值夜班吗?想半夜 3 点被人打电话叫起来修数据库吗?认清自己的定位啊,数据库工程师的技能当然很重要,但你是要成为数据工程师的人,技能树应该点在合适的方向。”

    后记

    后来,P 酱成了别人的女朋友。

    幸好我还有左手和右手,于是我把我给 P 酱总结的文档编撰成了《左手 MongoDB,右手 Redis ——从入门到商业实战》这本书。本书现在已经在京东、亚马逊、淘宝上架。

    这本书的定位是 MongoDB 和 Redis 的应用,所以有意弱化了数据库的搭建、维护和底层优化。所以本书可能不适合数据库工程师。

    希望本书能够给那些一直想掌握 MongoDB、Redis,但是又不知道从何处下手的读者,提供一个学习的方向。

    福利时间

    感谢你读到了这一行,希望我这篇蹩脚的软文没有让你觉得讨厌。新书上架,回馈 V 友。我将会从所有留言的 V 友中选中 6 人,一人赠送一本《左手 MongoDB,右手 Redis ——从入门到商业实战》。

    按照惯例,选人的方式如下:

    1. 2019 年 2 月 26 日早晨 10 点,我会打开网易财经查询 2019 年 2 月 25 日的网易收盘价。
    2. 网易收盘价转成字符串分别加上『 P 』、『 y 』、『 t 』、『 h 』、『 o 』、『 n 』获得 6 个字符串。例如『 2,806.81P 』、『 2,806.81y 』等等
    3. 通过 Python 自带的 hashlib 中的 sha256 算法,计算这 6 个字符串的哈希值。
    4. 哈希值转换为十进制以后除以截至 2019 年 2 月 26 日 10:00 的总楼层数,获得 6 个余数
    5. 6 个余数对应的楼层数将会获得赠书。
    6. 如果同一个人中奖两次,第二次自动顺延给下一层楼。
    7. 顺丰包邮(港澳台、新疆西藏除外)

    抽奖用到的数据,如下图红框框住的这一列。

    第 1 条附言  ·  331 天前
    第 2 条附言  ·  328 天前

    @tianrandai @ouyangpiao @abellee000 @houzhimeng @imNull @chotow

    恭喜以上同学中奖,请使用 base64 编码自己的邮箱回复到本帖并 @我。我会使用 Y29udGFjdEBraW5nbmFtZS5pbmZvCg== 对应的邮箱给各位发送邮件确认领奖事宜。

    抽奖代码:

    238 回复  |  直到 2019-03-12 09:39:50 +08:00
    1  2  3  
    guang124
        201
    guang124   330 天前
    看一看
    dyxang
        202
    dyxang   330 天前 via Android
    @itskingname 好吧😂我想的过于复杂
    konyeth
        203
    konyeth   330 天前 via iPhone
    当个分母
    SN7
        204
    SN7   330 天前 via Android
    真是套路够够的
    lyulen
        205
    lyulen   330 天前 via iPhone
    哈哈哈哈这个文案 太强了
    itskingname
        206
    itskingname   330 天前
    @lyulen 有多强
    hululu
        207
    hululu   330 天前 via iPhone
    文案不错
    aocoxyx
        208
    aocoxyx   329 天前
    文案不错
    lbyd
        209
    lbyd   329 天前
    鬼鬼
    faller
        210
    faller   329 天前 via Android
    打开 b 站看了看
    770705779
        211
    770705779   329 天前
    哈哈哈, 可以中么?
    itskingname
        212
    itskingname   329 天前
    @770705779 可以。
    wangyuescr
        213
    wangyuescr   328 天前 via Android
    充当分母
    itskingname
        214
    itskingname   328 天前
    @wangyuescr 再来几个。
    itskingname
        215
    itskingname   328 天前
    @konyeth
    @jsyzdej
    @reticentfat
    @xfcy
    @BBrother
    @pcteams

    恭喜以上同学中奖,请使用 base64 编码自己的邮箱回复到本帖并 @我。我会使用 Y29udGFjdEBraW5nbmFtZS5pbmZvCg== 对应的邮箱给各位发送邮件确认领奖事宜。
    itskingname
        216
    itskingname   328 天前
    闹乌龙了

    @konyeth
    @jsyzdej
    @reticentfat
    @xfcy
    @BBrother
    @pcteams

    对不起六位同学,收盘价我看错了。稍后我重新抽奖一次,实在抱歉
    xfcy
        217
    xfcy   328 天前 via Android
    @itskingname 好不容易中次奖 T^T
    itskingname
        218
    itskingname   328 天前
    @tianrandai
    @ouyangpiao
    @abellee000
    @houzhimeng
    @imNull
    @chotow

    恭喜以上同学中奖,请使用 base64 编码自己的邮箱回复到本帖并 @我。我会使用 Y29udGFjdEBraW5nbmFtZS5pbmZvCg== 对应的邮箱给各位发送邮件确认领奖事宜。
    abellee000
        219
    abellee000   328 天前 via Android
    @itskingname 嘿嘿嘿谢谢大佬 YWJlbGxlZTAwMEBnbWFpbC5jb20=
    ouyangpiao
        220
    ouyangpiao   328 天前
    谢谢大佬 YmlhbmxpYW5nQHByb3Rvbm1haWwuY29t @itskingname
    imNull
        221
    imNull   328 天前
    @itskingname 谢谢大佬 aWFtbnVsbEBmb3htYWlsLmNvbQ==
    houzhimeng
        222
    houzhimeng   328 天前
    我的天 v2 第一次中奖,感谢大佬 MTg2MTE3MjA4NDNAMTYzLmNvbQ==
    houzhimeng
        223
    houzhimeng   328 天前
    chotow
        224
    chotow   328 天前
    @itskingname aUBjaG95cmkuY29t 🙈运气好在楼主自己那层下面哈。
    BBrother
        225
    BBrother   328 天前
    @itskingname 人生的大起大落!
    tianrandai
        226
    tianrandai   327 天前
    @itskingname 感谢!大早上收到中奖消息太开心了,祝书大卖!
    我的邮箱 dGlhbnJhbmRhaUBwaW5kdW9kdW8uY29t
    houzhimeng
        227
    houzhimeng   325 天前
    感谢大佬 好像没收到邮件 MTg2MTE3MjA4NDNAMTYzLmNvbQ== @itskingname
    abellee000
        228
    abellee000   323 天前 via Android
    我也没收到…
    itskingname
        229
    itskingname   323 天前 via iPhone
    @abellee000 还没有收到吗,我去查一下快递
    itskingname
        230
    itskingname   323 天前
    tianrandai
        231
    tianrandai   322 天前
    书已收到,很开心~谢谢!祝大卖 XP
    abellee000
        232
    abellee000   322 天前 via Android
    @itskingname 谷歌给当垃圾邮件了😂
    imNull
        233
    imNull   322 天前 via Android
    收到书啦,再次感谢楼主
    abellee000
        234
    abellee000   320 天前 via Android
    收到啦谢谢大佬 @itskingname
    itskingname
        235
    itskingname   320 天前
    @abellee000 好的~还请帮忙多宣传
    @imNull
    @tianrandai
    abellee000
        236
    abellee000   319 天前 via Android
    妥妥的哈哈哈哈
    Q2019cate
        237
    Q2019cate   314 天前
    帅气的老哥还有其他分享么?
    itskingname
        238
    itskingname   314 天前 via iPhone
    1  2  3  
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1110 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 35ms · UTC 23:20 · PVG 07:20 · LAX 15:20 · JFK 18:20
    ♥ Do have faith in what you're doing.