投递邮箱:
[email protected]投递内容: 应聘职位 + 个人简历
# 团队介绍
SRE(Site Reliabilitiy Engineering)是结合传统软件工程与系统运维形成的新的技术体系,用以组建大规模高可用的分布式系统。蚂蚁基础设施中间件 SRE 团队的使命在于确保基础设施在快速演进的同时,具备高可用性以及扩展性。团队从高可用的角度切入到基础设施各部分组件的研发设计,通过工程化手段来优化生产运行中低效,繁复的操作,并致力于建设完善的监控体系以提高故障处理效率。
本职位包含大数据 SRE 、中间件 SRE 、平台研发专家、区块链 SRE 、接入层 SRE 5 个岗位
( P6 、P7 、P8 均有需求)
# 职位描述
一、大数据 SRE
1. 负责高可用体系建设,如故障自动定位、自动恢复、自适应容灾等,保障业务持续可用;
2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,同时确保成本可控;
3. 负责人工智能和大数据领域新技术探索及落地,如资源调度、存储计算分离、离在线混部、分布式计算等。
二、中间件 SRE
蚂蚁金服中间件团队使用 Service Mesh 、SofaStack 、Serverless 等技术,上层业务提供统一高效的服务注册、消息、定时任务、限流等能力。中间件 SRE 团队致力于打造新一代中间件云原生系统的 SLA 体系,建设各种场景下的高可用能力,推进新的云原生技术在蚂蚁快速落地的同时,为上游业务提供 5 个 9 的可用率。加入我们,你将
1. 设计中间件系统的高可用技术风险体系,用以保障双十一等大型活动的平稳进行;
2. 设计并支撑 Service Mesh 、Serverless 在蚂蚁大规模场景下的接入、部署和升级方案;
3. 建设中间件系统的监控和 SLA 规范,能够利用算法对监控进行持续降噪;
4. 建设中间件变更防御、异常定位和自愈系统,能够快速定位和处理故障。
三、平台研发专家
1. 负责自动化体系的建设。如快速部署变更、自动恢复、自适应容灾等,提升技术效能;
2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,同时确保成本可控;
3. 负责人工智能和大数据领域新技术探索及落地,如资源调度、存储计算分离、离在线混部、分布式计算等
四、区块链 SRE
1. 负责蚂蚁金服区块链业务的运维保障工作,包括交付、监控、变更、应急响应、故障恢复;
2. 负责区块链高可用、高效运行等运维体系的建设,对高可用和效能提升有深刻的理解和实践;
3. 负责区块链技术风险相关各领域的功能研发,提升自动化、高可用、智能化等技术风险能力;
4. 参与重大项目(比如双 11,双 12 )的技术保障工作,对技术风险领域进行评审和分析,保障重大项目顺利完成;
5. 熟悉技术风险和区块链技术的发展趋势,为团队在技术风险领域的持续发展提出建议和贡献。
五、接入层 SRE
蚂蚁统一接入层是蚂蚁所有业务的入口,在云原生的基础设施里承担者流量接入转发以及负载均衡的重要角色。接入层的 SRE 的职能要求包括
1. 负责接入层在向云原生转型过程中的规划、设计、部署、以及业务性能调优;
2. 负责接入层管控层面的整体方案设计和推进,结合云原生的容器调度体系( K8S ),在业务高稳定性同时,做到 docker 镜像化,自动化运维,探索研究新的技术方向,例如 infra as code,不断提升运维工作效率;
3. 负责接入层在各项大促(例如双十一)期间的稳定性、规模化以及性能保障,确保峰值时期的平稳运行。
4. 负责接入层技术支持和日常运维工作,对突发事件的快速响应、定位及处理,排除故障,保障系统稳定性。
# 要求描述
一、大数据 SRE
1. 3 年以上的大规模集群实战运维经验,熟悉软件开发和系统架构,熟悉 Shell 脚本,掌握至少一门编程语言,Node 、C++ 或者 Java 优先;
2. 熟悉服务管理、单元部署、自动扩容等运维系统建设,对成本控制、效能提升和故障排查有深刻的理解和实践;
3. 具有广告或搜索业务背景者优先,具有大规模集群调度和架构设计经验优先;
4. 具有 hadoop/spark/Flink/storm/elasticsearch/kafka 等大数据产品及消息队列系统开发 /运维经验者优先;
二、中间件 SRE
1. 有强烈的技术热情,工作责任感。
2. 至少精通一门编程语言,Java/Golang 优先
3. 熟悉 Linux 系统和 Shell,对网络、存储等基础设施领域有一定的了解和知识储备
4. 有 Docker 、k8s 、微服务治理经验者优先
5. 熟悉运维自动化部署平台研发,具有大规模集群架构设计经验优先
6. 有良好的沟通,团队协作能力,熟悉 DevOps 流程
三、平台研发专家
1. 3 年以上的大规模集群管控平台开发经验,掌握至少一门编程语言。Java 、Node 优先;
2. 具有监控及自动化部署平台研发背景者优先,具有大规模集群调度和架构设计经验优先;
3. 对云平台有了解,有 IaaS/PaaS/SaaS 背景者优先;
4. 对网络及基础设施层有一定的了解和知识储备,熟悉 Linux 系统和 Shell
5. 有 Docker 、k8s 及资源调度经验者优先;
6. 有产品经验优先
四、区块链 SRE
1. 2 年以上的大规模集群实战运维经验,熟悉 IAAS/PAAS/SAAS 基础知识,熟悉软件开发过程;
2. 系统运维能力过硬,熟悉 linux/shell/Nginx/网络 /数据库 /监控 /日志 /docker 等技术,故障排查经验丰富,有较强的动手能力和技术敏感度;
3. 熟悉自动变更、高可用、容灾等运维系统建设,对高可用能力和效能的提升有深刻的理解和实践;
4. 掌握 PYTHON/JAVA 中一门以上的编程语言,有运维开发经验,做过正式的软件项目开发,具有开源项目开发经验者优先;
5. 具有 AWS 、Google Cloud Platform 、阿里云使用经验者优先
五、接入层 SRE
1. 精通 TCP/HTTP(2)/DNS 协议原理;
2. 熟悉 golang/C/Java/Python/Shell 中的任意一种以上;
3. 熟悉常见的配置管理和运维工具,如:Ansible 、Puppet 、SaltStack 、Fabric 、Kubenetes 、Docker 等;
4. 熟悉 nginx 、lvs 、envoy 、service mesh 等技术,对 ngx_lua 有实践者优先
5. 熟悉阿里云 ECS 、OSS 、SLB 、CDN 等云产品优先;
6. 熟悉云计算平台 OpenStack 、Kubernetes 、Mesos 、Swram 及 docker/kvm/xen 等虚拟化技术优先;
7. 热爱技术,自我驱动,主动思考,不断钻研和探索新领域,有较好的技术敏感度、风险识别能力和全局意识;
8. 高度的责任心,良好的沟通能力和团队协作精神,有较强的跨团队协调能力且抗压能力强。