深耕1510工程:广发银行
应急提升实践
10年+金融领域ITSM、监控、日志、变更、调度、CMDB、门户等平台工
程建设和运营经验
广发银行数据中心智能运维架构师
丘彬
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
背景-挑战和对策
技术
大变革
???
监管
新常态
业务
高要求
稳定性保障所面临的风险和挑战,正变得越来越严峻...
如何
应对挑战
目录/CONTENTS
1组织能力提升
2分钟级响应能力
3节点级定界能力
4打造可预见故障场景
5故障复盘
6未来展望
组织能力提升
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
应急组织架构
修炼内功-以“1分钟发现、5分钟定界、10分钟恢复”为目标
技术应急团队
一线现场值班团队 二线团队
团
队
职
责
操作一线-标准应急
值班经理-总体负责
专业一线-非标应急
值班服务台
团
队
组
成
告警处理
故障应急
例行巡检
团
队
职
责
事件经理-故障管理
专业二线-应急支持
工具团队-工具支持
团
队
组
成
故障应急支持
监控/排障/应急
治理
故障复盘
标准应急建设
三线团队
团
队
职
责
推广支持团队
研发团队
三方厂商
团
队
组
成
故障应急支持
非功能性标准
推广
业务应急团队
总行业务部门 分行科技与业务部门
纵向协同
业务连续性保障 舆情感知与响应 业务连续性保障 舆情感知与响应
横
向
支
持
横
向
支
持
应急四大原则
总行信息科技部
监管报备 故障复盘组织舆情感知与响应
①第一时间通知
②优先恢复业务
③并行现场应急
④30分钟恢复(15分钟恢复为牵引目标)
治理团队-治理优化
故障复盘
根因分析
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
应急文化建设
“成”时举杯相庆,“败”时拼死相救团队协作
SRE文化:变态的执着,死磕困难-日思、晚想、夜梦自我驱动
知道、做了->做到->做好知行合一
守土有责,自扫门前雪担当履责
应急文化塑造:让各团队精诚合作、聚焦目标,做难而正确的事
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
应急管理运营机制
应急管理运营机制:重复、持续地通过早例会、故障复盘、治理、体验等机制落地应急管理要求
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
一线现场值班机制
一线值班优化:标准化一线应急响应标准及流程
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
一线现场值班机制
有担当,有责任心 把控全局的能力 沟通协调能力 果断决策能力
知过去,通过程 技术判断力 熟悉当前环境 压力管
丘彬-深耕1510工程:广发银行应用应急实践从组织到工具的升级