关于我们:
1 、我们是算力治理团队,为蚂蚁全集团(包括支付宝、网商、蚂蚁国际等)提供云原生化的高可用服务:包括中间件、Kubernetes 、接入层等等,同时负责提供支撑全站业务的算力服务、优化资源配置和使用效率,涵盖但不限于传统的微服务、AI 训练与推理、搜索推荐、高性能分布式缓存等多个领域。
2 、团队隶属蚂蚁集团-CTO 线-超级计算技术部,通过开发和使用多种平台和工具来管理好国内首屈一指、规模庞大的集群。结合当前 AIGC 的趋势,利用 Al 和大模型重塑平台产品能力,进一步提升工程师的用云体验和云底座的维护效率。这里工程师文化浓厚,崇尚高水平创新、反对低水平建设,已经连续三年给 KubeCon / SREcon 贡献 Topic ,并持续给相关开源社区贡献代码。
岗位职责:
- 负责接入网络和 AI 网络方向的服务可靠性和稳定性工作,包括监控、定位、应急、容灾、限流和自愈等,通过 SLA 体系、应急响应机制、容灾体系的建设,保障业务的持续可用
- 深入理解上述产品和平台的架构及用户场景,结合业务场景对生产问题进行诊断和优化,帮助业务在可用性、成本、效率上做好合适的架构设计。
- 负责上述产品的容量管理、性能优化、成本优化以及运营效率提升;负责重大活动的保障与业务护航,如双 11 、双 12 、新春红包等,支撑业务常态化大促活动。
- 负责运维变更、风险防控等相关平台的架构设计和研发,体系化识别和管控业务风险;引领应用网络产品的稳定性保障模式向数字化、智能化方向演进。
岗位要求:
- 对技术充满热情,工作责任感强烈,具有有良好的沟通能力和团队协作能力;具有扎实的编程基础,熟悉至少一种开发语言(java, c/c++, python ,golang) ,若有开源社区贡献更佳。
- 熟悉 TCP/IP 协议、Linux 内核协议栈,熟悉 TLS 协议,了解 openssl 实现原理,具有安全加解密协议工作经验;具有网络协议栈优化,内核模块开发工作经验优先
- 熟悉以下应用层协议中的一个或多个:QUIC 以及 HTTP1.1/HTTP2/HTTP3.0 等标准以及协议原理,具有协议实现以及优化经验;多媒体传输协议,如 RTMP/RTP/RTCP 等,熟悉 webRTC 架构以及实现,有实时音视频传输优化经验
- 熟悉开源负载均衡,网关代理(如 Nginx 、Haproxy 、envoy 、OpenResty 等), 有分析其代码实现或模块编写经验;精通高性能服务器编程采用的核心技术,如 IO 处理、多线程;掌握性能分析和调优手段,对系统稳定性、扩展性有思考
- 熟悉网络虚拟化原理,熟悉容器网络实现原理和相关技术,了解 flannel, calico, cilium 等开源组件;了解 Docker/Containerd/K8S 等相关内容
如果有以下方面的经验更佳:
- 熟悉以下网络技术中的一个或多个:如高性能网络协议 RDMA 、RoCE 、DCQCN 、CXL 、InfiniBand ,通信技术 NCCL 、MPI 、Gloo ,软硬件结合 DPU 、SmartCard 、SONiC 、P4 、DOCA 等
- 熟悉深度学习框架( Pytorch, Tensorflow 等),熟悉各组件和类库、常见 AI 模型经验者优先;对 AI 技术及行业有充分了解
- 大规模 AI/HPC 数据中心网络架构经验,满足 AI 应用对网络性能、可靠性和安全性的高要求
投递方式
- 直接发简历到我的邮箱:shanheng.zh (艾特) antgroup.com ;邮件标题格式: [姓名] + [公司] + [应聘岗位]
- 加 wx 进一步沟通联系:nigelzeng ;请备注 [V2EX+网络 SRE]