文库 信息管理 运维管理

周光杰-数智化重塑证券公司故障管理

2025GOPS全球运维大会 PDF   50页   下载2964   2025-04-28   浏览664982   收藏5623   点赞11819   评分-   10363字   免费文档
温馨提示:当前文档最多只能预览 15 页,若文档总页数超出了 15 页,请下载原文档以浏览全部内容。
周光杰-数智化重塑证券公司故障管理 第1页
周光杰-数智化重塑证券公司故障管理 第2页
周光杰-数智化重塑证券公司故障管理 第3页
周光杰-数智化重塑证券公司故障管理 第4页
周光杰-数智化重塑证券公司故障管理 第5页
周光杰-数智化重塑证券公司故障管理 第6页
周光杰-数智化重塑证券公司故障管理 第7页
周光杰-数智化重塑证券公司故障管理 第8页
周光杰-数智化重塑证券公司故障管理 第9页
周光杰-数智化重塑证券公司故障管理 第10页
剩余35页未读, 下载浏览全部
周光杰 2025-04 数智化重塑证券公司故障管理: 构建主动防御新体系 10+年银行核心系统、证券泛互联网系统运维及运维平台研发经验。 擅长持续交付、变更管控、统一监控、日志分析等运维领域运维研发。 亲历公司运维体系从线上化到数字化转型,并积极拥抱智能化。 广发证券 资深SRE专家 周光杰 目录/CONTENTS 1全生命周期的故障管理场景 2运维左移:从被动救火到主动稳定性保障 3变更管控:变更管控主要模块设计与实践 4应急指挥:应急资源协调,应急效率加速器 5智能化与场景融合 全生命周期故障管理 GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站 全生命周期故障管理 -稳定性保障全景 架构韧性设计 应急定位业务监控 业务指标监控 业务状态监控 业务链路监控 数据正确性监控 服务接口监控 业务拨测监控 上游依赖监控 自动化发布容量评估 数字化部署变更风险管控 6大能力项:故障可恢复、性能可扩展、变更可管控、业务可监控、问题可观测、部署可感知 容量指标 容量规划 容量评估 容量监测 压力测试 容量扩容 容量管理 变更场景 变更事件 变更防御 变更控制 变更定位 变更验证 变更管理 客户体验监控 业务功能监控 服务监控 平台监控 服务器监控 网络监控 安全监控 监控管理 架构评审日 L1:基础保障级 L2:具备逃生通道 L3:可热操作止损 L4:可止损隔离 L5:跨系统间止损 架构管理 应急发现 应急响应 应急指挥 应急定界 应急止损 根因定位 故障复盘 应急管理 配置治理 最小计算单元 软件配置治理 应急预案管理 演练管理 混沌工程 定位排障编排 风险治理 容灾风险评估 高可用风险评估 性能风险评估 常态化健康巡检 智能风险检测 日志模式识别 运行趋势分析 运行评估 效能指标 指标采控 效能分析 低效挖掘 低效资源退出 投入数字化 效能管理 稳定性运维保障关键能力 左移稳定性保障重点切入点 降级 限流 切换 重启 熔断 隔离 异步处理 重试 上 线 前 的 非 功 能 性 需 求 设 计 左 移 上 线 后 持 续 挖 掘 并 防 范 线 上 风 险 关键逻辑变更 架构调整 依赖平台变更 上游系统变更 组件下线 新组件或业务 海量终端体验 数据迁移 关键配置变更 终端灰度 服务端灰度 程序发布 配置发布 数据库脚本变更 参数调整 主机操作 应用配置操作 依赖平台操作 定义容量指标 设计容量基线 埋点容量指标 监控容量策略 水平扩容方案 资源扩容方案 依赖弹性平台 容量效能评估 可观测看板 日志数据规范 日志数据埋点 链路id埋点 监控指标埋点 上游依赖清单 下游
周光杰-数智化重塑证券公司故障管理