[职位描述]
负责阿里集团、阿里云可观测平台建设,打造日增百 PB 级数据的实时数据分析平台。 通过实时采集、数据建模等技术,实时处理来自千万设备的海量可观测数据,并进行智能分析与洞察。加入该岗位,您将有机会在国内超大规模的可观测平台上,构建面向各类 AI 应用场景的 AIOps 平台,打造新一代的 AI 基础设施。
- 参与阿里云云监控数据链路建设,打造日吞吐 PB 级的高性能实时计算平台。负责海量监控指标与告警的采集、清洗、聚合与存储,保障秒级报警延迟与高可用性;
- 深度参与云监控 2.0 战略落地,构建指标、日志、链路深度融合的统一可观测数据底座。打破数据孤岛,设计基于 UModel 的资源关联建模,实现从基础设施到应用层的全链路诊断能力;
- 结合 AI/LLM 能力,研发新一代智能报警与根因分析引擎。针对 AI 训练集群等新场景,提供特定优化的监控解决方案,实现从“被动告警”到“主动预防”的跨越;
- 负责云监控采集探针( Agent )及云产品接入层的建设。拥抱开源生态,支持 Prometheus 、OpenTelemetry 等标准协议的无缝接入,打造多元、兼容的监控生态体系,,让云上百万企业能够零门槛接入并监控异构环境。
[职位要求]
- 扎实的算法基础和良好的编码习惯,精通 Go 、Python 、Java 、C++、Rust 中任何一门语言;
- 熟悉异步 IO 、内存管理、多线程同步等技术,有 Linux 内核研究经验更佳;
- 有分布式系统,包括调度、分布式锁、负载均衡等经验更佳;
- 对技术有强烈的进取心,有较强的学习能力,保持对前沿技术的关注和学习;
- 具有良好的沟通能力和团队合作精神、优秀的问题分析和解决能力。
- 熟悉 LLM 、Prompt 设计、Agent 框架(如 LangGraph 、Dify 、AutoGen 、Google ADK 、工具链集成等)者优先。
- 对 OpenTelemetry 、Neo4j 、Skywalking 、Datadog 、Sentry 、Clickhouse 源代码有深入研究者优先。
- 深入理解分布式系统原理,熟悉分布式存储、消息队列( Kafka/RocketMQ )、流式计算( Flink/Spark )等技术。有时序数据库研发或使用经验者优先。
- 熟悉 AWS CloudWatch, Datadog, Prometheus, Zabbix, OpenTelemetry 等监控系统架构者优先。
- 熟悉 LLM Agent 开发,以及有 AIOps 在运维场景落地经验者优先。
[联系方式]
- 微信号:
echo eGRhcnRodXIK | base64 -d
- 工作邮箱:
echo emh1eGlhZG9uZy56eGRAYWxpYmFiYS1pbmMuY29tCg== | base64 -d