文库 信息管理 运维管理

冯富秋-大模型知识库在运维领域的应用和改进

2025GOPS全球运维大会 PDF   28页   下载2384   2025-04-28   浏览1111343   收藏18818   点赞9285   评分-   3726字   免费文档
温馨提示:当前文档最多只能预览 15 页,若文档总页数超出了 15 页,请下载原文档以浏览全部内容。
冯富秋-大模型知识库在运维领域的应用和改进 第1页
冯富秋-大模型知识库在运维领域的应用和改进 第2页
冯富秋-大模型知识库在运维领域的应用和改进 第3页
冯富秋-大模型知识库在运维领域的应用和改进 第4页
冯富秋-大模型知识库在运维领域的应用和改进 第5页
冯富秋-大模型知识库在运维领域的应用和改进 第6页
冯富秋-大模型知识库在运维领域的应用和改进 第7页
冯富秋-大模型知识库在运维领域的应用和改进 第8页
冯富秋-大模型知识库在运维领域的应用和改进 第9页
冯富秋-大模型知识库在运维领域的应用和改进 第10页
剩余13页未读, 下载浏览全部
大模型知识库在运维领域 的应用和改进 专注于将操作系统深入剖析能力以及前沿大模型等创新技术转化为实际 工程解决方案,旨在打造更加高效和智能的IT基础设施。研究并发起龙 蜥运维联盟,联合产业界、学术界、研究机构及标准化组织,共同推进 运维行业的标准化、用户友好性和智能化进程,促进行业健康发展。 阿里巴巴操作系统运维总监 龙蜥运维联盟主席 冯富秋 请替换 您的照片 目录/CONTENTS 1?X}v5.7? 29u(fJg?#p?6ǝX}v&?>{ 38?W?6o?? C?m?C?k=1$OV?s 4>J?(Ti(? 运维困境 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 运维困境 OS运维现状 •深度诊断工具缺乏 •业务故障驱动 •自动化程度低 •人力成本高 OS运维痛点 •技术门槛高 •经验依赖大 •组件关联复杂 •问题定位周期长 •自动化困难 目前主流企业使用的开源的运维工 具,都是基于常规的系统指标进行 监控的,从阿里巴巴这几年的双十 一保障经验得出,常规的监控指标 在规模性大型IT系统显得监控能力 不足 在操作系统社区,管理运维工 具是必不可少的能力,需要一 个有竞争力的运维产品来服务 未来庞大的用户群体 操作系统和开源社区有大量的运维 管理工具,但是工具碎片化严重, 没有形成统一的系统化的竞争力, 没有系统化的运维平台支撑用户的 日常运维管理,用户对于操作系统 运维都是用到哪学到哪。 国内的OSV厂商还不具备提供系 统化运维工具的能力,将我们多 年的双十一操作系统运维经验产 品化的输出后,可以形成SIG-> 产品->合作伙伴->用户->社区开 发者->SIG的良好的生态循环 操作系统运维平台 SysOM GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 操作系统运维的复杂性示例 线上问题:redis出现20%的连接超时 应用 ping延迟 中断延迟 监控组件 cat cgroupproccgroup泄漏 存储组件 shm残留 结论:存储组件使用shm有残留导致 应用诊断 rtrace 网络诊断 schedmoni 调度诊断 memcgoffline memcg诊断 OS运维难点、痛点: •OS深度诊断工具 •OS专业运维人员 •业务组件复杂 •领域交叉影响 •影响范围广泛 改进点: •运维工具辅助 •信息关联汇总 •诊断联动 •结果易读 •专业文档 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 操作系统一体化运维平台SYSOM 操作系统问题支持 稳定性问题分析 系统诊断工具 AIOPS •阿里云操作系统稳定性支持 •双十一操作系统运维经验 •稳定性问题分析报告 •完善工具覆盖度,改善工具 •保障工具服务服务效率 •SYSOM一键诊断 •深入诊断工
冯富秋-大模型知识库在运维领域的应用和改进