陈迪豪
2025-04
基于DeepSeek和多智能
体的根因定位系统实践
⽬前担⼼顺丰科技 AI 技术平台负责⼈和 AIOps 项⽬算法负责⼈,负责顺丰
科技 AI 和⼤模型基础架构功能,曾任第四范式平台架构师和 OpenMLDB
项⽬ PMC,以及在⼩⽶科技担任云深度学习平台架构师以及优思德云计算
公司存储和容器团队负责⼈。 活跃于分布式系统、机器学习相关的开源社
区,也是 HBase、OpenStack、TensorFlow、TVM 等开源项⽬贡献者。
顺丰 AI 技术平台组负责⼈
陈迪豪
⽬录/
CONTENTS
1AIOps 与 RCA 技术演进趋势
2基于多智能体的运维体系搭建
3⼤模型落地多场景根因定位系统
4DeepSeek 等⼤模型优化与实践
1
AIOps 与 RCA
技术演进趋势
GOPS 全球运维⼤会暨研运数智化技术峰会 2025 · 深圳站
DevOps
⾃动化运维范式
以⾃动化流程 为核⼼,打破开发
与运维壁垒,通过持续集成 /交付
(CI/CD)实现⾼频部署,缩短
交付周期,提升系统迭代效率。
AIOps
智能运维新范式
基于⼤数据分析 与机器学习 ,实
现异常检测、根因定位和故障⾃
愈,将运维从被动响应转向主动
预测,显著降低平均故障修复时
间(MTTR)与业务中断⻛险。
运维技术演进:从 DevOps 到 AIOps
GOPS 全球运维⼤会暨研运数智化技术峰会 2025 · 深圳站
借助智能算法快速精准定
位故障根源,提升运维效
率,减少系统故障时间,
从⽽全⽅⾯保障业务连续
性和稳定性。
⾃动化响应
基于分析结果⾃动触发响
应措施,如⾃动调整资源
配置、重启服务、切换故
障设备等,减少⼈⼯⼲
预,提⾼运维效率和系统
可⽤性。
数据处理能⼒
AIOps 平台需⾼效收集、
整合和预处理海量多源异
构数据,为后续分析和决
策提供全⾯、准确的数据
基础,实现对 IT 运维状态
的精准把握。
直观展示运维数据和分析
结果,确保智能分析和决
策过程的可解释性,增强
运维⼈员对系统的信任和
使⽤效果。
运维技术演进: AIOps 的关键指标
定位有效性 可解释性
GOPS 全球运维⼤会暨研运数智化技术峰会 2025 · 深圳站
运维数据整合
针对多模态数据融合难题, 整合海量
多源异构数据 ,构建统⼀数据平台,
精准刻画系统状态,为后续分析提供
坚实基础。
多智能体协同
⾯对复杂因果关系推断, 引⼊多智能
体协同机制 ,各智能体分⼯合作,有
效应对组件间复杂依赖关系,减少虚
假相关⼲扰。
⼤模型推理能⼒提升
聚焦模型性能与可解释性,优化⼤模
型训练与推理流程, 结合⼤模型推理
能⼒和领域知识 ,提升模型推理效率
与准确性,助⼒
陈迪豪-基于DeepSeek和多智能体的根因定位系统实践