文库 信息管理 运维管理

鞠鹏-故障演练平台进化论——自动化与多态化演练

2025GOPS全球运维大会 PDF   42页   下载7649   2025-04-28   浏览834031   收藏4598   点赞10352   评分-   10472字   免费文档
温馨提示:当前文档最多只能预览 15 页,若文档总页数超出了 15 页,请下载原文档以浏览全部内容。
鞠鹏-故障演练平台进化论——自动化与多态化演练 第1页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第2页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第3页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第4页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第5页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第6页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第7页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第8页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第9页
鞠鹏-故障演练平台进化论——自动化与多态化演练 第10页
剩余27页未读, 下载浏览全部
故障演练平台进化论 自动化与多态化演练 本次演讲深入探讨混沌工程的成长历程与进化趋势,旨在揭示如何实现混沌实验的 闭环全流程管理,推动其向一体化、自动化、智能化阶段迈进。演讲将围绕三大核 心篇章展开:首先,直面混沌实验挑战,揭示技术创新如何助力实验流程自动化, 显著提升演练效率与精确度;其次,探索多态化演练模式,灵活应对多样化应用场 景需求,为混沌文化的培育奠定坚实基础;最后,展望AI大模型在混沌工程中的应 用潜力,借助机器学习、深度学习及强化学习等前沿技术,重塑实验设计、执行与 分析流程,引领混沌工程步入智能化新时代。 国投证券混沌工程专家 鞠鹏 请替换 您的照片 目录/CONTENTS 1行业洞察 2国投证券实践 3演练多态化 4演练智能化 5平台运营 6前沿探索 行业洞察 从被动救火到主动防御的范式革命 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 系统故障黑天鹅频现:数字化时代的稳定性危机 6 深圳某云控制台故障 4月8日15点23分,某云控 制台无法登录,持续近87 分钟,共有1957个客户报 障。 2024年4月8日 微软系统蓝屏事件 Windows10系统出现了蓝屏死的 问题。影响范围几乎覆盖全球, 涉及了涵盖航空公司、电视广播、 医疗机构、银行金融等众多行业。 2024年7月9日 上海某运营商宽带故障 8月26日下午5点30分左右, 部分用户无法正常上网。 致使用户的工作延误、商 家交易受阻、娱乐中断等。 2024年8月26日 杭州某云故障 7月2日10点4分,上海地域可用 区N网络访问出现异常,B站和 小红书的用户无法关注内容、 评论、发弹幕等操作。 2024年7月2日 国内某云音乐故障 8 月19 日下午2 点半左右, 用户发现服务访问困难、歌 曲加载失败等现象,使其面 临客户流失的危险。 2024年8月19日 OpenAI故障 12月11日下午3点,OpenAI长时间 服务中断,服务都经历了严重降级 或完全不可用。影响了OpenAI关 联的所有服务。 2024年12月11日 证券行业的系统稳定运营是企业信誉与客户信任的基石,在分布式系统架构下,服务组件之间的调用链路和访问关系愈发的复杂,同时 很难评估单个服务组件故障对整个系统的影响。监控告警的不完善导致发现问题、定位问题难度增大,同时业务和技术迭代快,如何持 续保障系统的稳定性和高可用性受到很大的挑战。让我们先来看看去年的互联网发生了哪些大型灾难事件。 支某宝交易故障 11月11日上午,网友反映支某宝 App无法正常使用。造成用户订单 重复扣款、余额宝转账错误、线下 支付异常
鞠鹏-故障演练平台进化论——自动化与多态化演练