文库 信息管理 运维管理

吴海洋-腾讯IEG SRE应急响应实践

2025GOPS全球运维大会 PDF   46页   下载4270   2025-04-28   浏览362423   收藏18385   点赞17850   评分-   9043字   免费文档
温馨提示:当前文档最多只能预览 15 页,若文档总页数超出了 15 页,请下载原文档以浏览全部内容。
吴海洋-腾讯IEG SRE应急响应实践 第1页
吴海洋-腾讯IEG SRE应急响应实践 第2页
吴海洋-腾讯IEG SRE应急响应实践 第3页
吴海洋-腾讯IEG SRE应急响应实践 第4页
吴海洋-腾讯IEG SRE应急响应实践 第5页
吴海洋-腾讯IEG SRE应急响应实践 第6页
吴海洋-腾讯IEG SRE应急响应实践 第7页
吴海洋-腾讯IEG SRE应急响应实践 第8页
吴海洋-腾讯IEG SRE应急响应实践 第9页
吴海洋-腾讯IEG SRE应急响应实践 第10页
剩余31页未读, 下载浏览全部
吴海洋 2025-04 腾讯IEG SRE应急响应实践 腾讯IEG公共平台 SRE负责人,高级工程师, 2013年加入腾讯,先后 担任逆战、 QQ飞车等多款重点端、手游运维负责人。目前专注游戏 平台、公共组件平台 SRE支撑体系建设等相关工作。 腾讯IEG公共平台 SRE负责人 吴海洋 目录/CONTENTS 1游戏应急响应的目标和痛点 2基于蓝鲸基座的应急响应方案建设 3执行应急响应的思考和经验 4总结和展望:故障的可控 游戏应急响应的 目标和痛点 GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站 腾讯游戏的特点 现状: •研发团队:自研和代理 •游戏架构:模块多差异大,发行区域:国内和海外,全球发行 •支撑平台: BG内、BG外平台服务 •规模大:单游戏体量和整体体量 特点: •上下游涉及服务、人员多(多组织,多角色) •异构性非常强 •运营环境复杂 GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站 腾讯游戏应急响应的目标 故障发生 告警 开始处理 故障发现 故障诊断 故障恢复 故障复盘 告警时间 响应时间 定位时间 操作时间 环节 关键场景 1min 5min 15min 其他场景 5min 15min 30min GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站 腾讯游戏应急响应的痛点 故障发生 告警 开始处理 故障发现 故障诊断 故障恢复 故障复盘 告警时间 响应时间 定位时间 操作时间 监控 经验关键 环节 预案 痛点 目标 1~5min 5~15min 15~30min 游戏异构、场景 多、链路长、 环境复杂、跨组 件平台…. 有效信息 高效协同 快速执行全 准 人员多、信息 乱、有依赖 .... 资源约束、互 相影响、衍生 故障 ….? ? ? GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站 为了应对故障,我们曾经做过的尝试 告警优化: •基础设施: CPU、内存、磁盘、 IO、网络… •业务服务:调用量、成功率 … •用户体验:登录、下载、更新、支付、单局、卡顿 … •综合SLI/SLO 架构优化: •冗余、容错、负载均衡、在线更新、在线伸缩、功能解耦、过载保护 … 部署优化: •服务模块跨机房、跨城容灾建设,包含接入层、逻辑层、数据层 … •网络:多运营商、 IP+域名、HTTPDNS、探测调度 … 预案建设: •自动化流程、资源储备、故障自愈、混沌工程 … GOPS 全球运维大会暨研运数智化技术峰会 2025 · 深圳站 建设应急系统之前的情况不是很理想 故障案例 一 背景: 游戏A 11/7日发布了新版本,客户端版本新增了协议,会放大存储层压力, 11/13日A业务 活动放量,导致存储层 proxy模块CPU持续100%,引
吴海洋-腾讯IEG SRE应急响应实践