文库 信息管理 运维管理

尹斌斌-操作系统运维新体系:健康分与自动化诊断

2025GOPS全球运维大会 PDF   29页   下载1031   2025-04-28   浏览176154   收藏4706   点赞18788   评分-   4454字   免费文档
温馨提示:当前文档最多只能预览 15 页,若文档总页数超出了 15 页,请下载原文档以浏览全部内容。
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第1页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第2页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第3页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第4页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第5页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第6页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第7页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第8页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第9页
尹斌斌-操作系统运维新体系:健康分与自动化诊断 第10页
剩余14页未读, 下载浏览全部
操作系统运维新体系 健康分与自动化根因分析 10年以上操作系统领域的专业经验,专注于操作系统稳定性与性能 优化、智能监控以及自动化运维。 职位:高级技术专家 尹斌斌 公司:阿里巴巴 目录/CONTENTS 1OS运维的现状与挑战 2SysOM运维平台核心设计 ---健康分与自动化诊断 3专家工具集与持续追踪 4总结与展望 OS运维的现状与挑战 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 现状1:监控指标爆炸式增长 大量新指标缺乏明确问题映射,理解成本高, 调查显示,超70%的人员表示部分指标难以与 实际问联 指标含义模糊 监控指标从传统几十项增至数百项,涉及硬件, OS,业务多层次,涵盖CPU,内存,网络等多维度 指标数量与复杂性 阈值告警数量庞大,误报率居高不下, 噪音比超过90%,告警疲劳 告警数量与误报率 不会看 看不懂 不想看 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 现状2:秒级抖动盲区与现场缺失 缺现场 问题发现时缺少关键现场数据,事后 分析困难,仅凭监控数据,无法精准 定位问题 少指标 业务出现卡顿,抖动,监控指标显示无异常, 常规监控指标存在盲区 抓不到 业务相应时间(RT)突发毛刺,监控采样 周期难以捕捉,不能及时告警 秒级抖动频发指标局限性现场数据缺失 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 操作系统运维复杂性案例 Loa d 高 R 高 sys 高 内 存 回 收 锁 竞 争 长 路 径 循 环 高 频 sys call 缺 页use r高 循 环超 卖run q 长 超 卖绑 核 D 高 iow ait io 打 满 io ha ng mu tex 内 存 延 时 oth er uni nte rru Load高分析 a1 = a0 * e + a * (1 -e) Load计算公式 a0= 上个采样周期load值 a = R 进程+ D状态进程数量 SysOM运维平台核心设计 健康分与自动化诊断 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 操作系统运维平台-SysOM 前端展示 系统概览系统诊断系统观测系统管理组件管理订阅管理监控中心 SysOM Agent 服务端 健康分 节点监控容器监控 异常识别根因分析 集群健康度 OSCopilot 自然语言问答 辅助命令执行 运维与调优 专家诊断 宕机诊断 网络诊断 存储诊断 内存诊断 调度诊断 安全 漏洞检查 安全加固 漏洞修复 数据库/存储 livetracemonitor 通道 通道 前端 server端 client端 持续追踪 vLLM Java Pytorch CPUProfiling C/C++ 负载诊断 metavmcore client GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 设计目标 '???KwS?0ǖi??-L ???|??}U??????? (
尹斌斌-操作系统运维新体系:健康分与自动化诊断