吴海洋
2025-04
腾讯IEG SRE应急响应实践
腾讯IEG公共平台 SRE负责人,高级工程师, 2013年加入腾讯,先后
担任逆战、 QQ飞车等多款重点端、手游运维负责人。目前专注游戏
平台、公共组件平台 SRE支撑体系建设等相关工作。
腾讯IEG公共平台 SRE负责人
吴海洋
目录/CONTENTS
1游戏应急响应的目标和痛点
2基于蓝鲸基座的应急响应方案建设
3执行应急响应的思考和经验
4总结和展望:故障的可控
游戏应急响应的
目标和痛点
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
腾讯游戏的特点
现状:
•研发团队:自研和代理
•游戏架构:模块多差异大,发行区域:国内和海外,全球发行
•支撑平台: BG内、BG外平台服务
•规模大:单游戏体量和整体体量
特点:
•上下游涉及服务、人员多(多组织,多角色)
•异构性非常强
•运营环境复杂
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
腾讯游戏应急响应的目标
故障发生
告警
开始处理
故障发现 故障诊断 故障恢复 故障复盘
告警时间 响应时间 定位时间 操作时间
环节
关键场景 1min 5min 15min
其他场景
5min 15min 30min
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
腾讯游戏应急响应的痛点
故障发生
告警
开始处理
故障发现 故障诊断 故障恢复 故障复盘
告警时间 响应时间 定位时间 操作时间
监控 经验关键
环节
预案
痛点
目标 1~5min 5~15min 15~30min
游戏异构、场景
多、链路长、
环境复杂、跨组
件平台….
有效信息
高效协同
快速执行全
准
人员多、信息
乱、有依赖
....
资源约束、互
相影响、衍生
故障
….? ? ?
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
为了应对故障,我们曾经做过的尝试
告警优化:
•基础设施: CPU、内存、磁盘、 IO、网络…
•业务服务:调用量、成功率 …
•用户体验:登录、下载、更新、支付、单局、卡顿 …
•综合SLI/SLO
架构优化:
•冗余、容错、负载均衡、在线更新、在线伸缩、功能解耦、过载保护 …
部署优化:
•服务模块跨机房、跨城容灾建设,包含接入层、逻辑层、数据层 …
•网络:多运营商、 IP+域名、HTTPDNS、探测调度 …
预案建设:
•自动化流程、资源储备、故障自愈、混沌工程 …
GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站
建设应急系统之前的情况不是很理想
故障案例 一
背景:
游戏A 11/7日发布了新版本,客户端版本新增了协议,会放大存储层压力, 11/13日A业务
活动放量,导致存储层 proxy模块CPU持续100%,引
吴海洋-腾讯IEG SRE应急响应实践