文库 信息管理 运维管理

李艳红-基于Opentelemetry 的大模型应用可观测

2025GOPS全球运维大会 PDF   36页   下载3068   2025-04-28   浏览161244   收藏4827   点赞14141   评分-   6730字   免费文档
温馨提示:当前文档最多只能预览 15 页,若文档总页数超出了 15 页,请下载原文档以浏览全部内容。
李艳红-基于Opentelemetry 的大模型应用可观测 第1页
李艳红-基于Opentelemetry 的大模型应用可观测 第2页
李艳红-基于Opentelemetry 的大模型应用可观测 第3页
李艳红-基于Opentelemetry 的大模型应用可观测 第4页
李艳红-基于Opentelemetry 的大模型应用可观测 第5页
李艳红-基于Opentelemetry 的大模型应用可观测 第6页
李艳红-基于Opentelemetry 的大模型应用可观测 第7页
李艳红-基于Opentelemetry 的大模型应用可观测 第8页
李艳红-基于Opentelemetry 的大模型应用可观测 第9页
李艳红-基于Opentelemetry 的大模型应用可观测 第10页
剩余21页未读, 下载浏览全部
基于Opentelemetry的大模 型应用可观测:以DeepSeek R1+vLLM为例 负责LLM可观测、模型可观测、Python探针的相关研发工作 阿里巴巴集团 李艳红 目录/CONTENTS 1AI 原生应用架构演进及痛点 2AI 全栈可观测解决方案 3大模型应用可观测技术剖析 4AI for 可观测实战 5未来规划与展望 AI 原生应用架构演进及痛点 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 蓬勃发展的AI 应用生态 GPT系列Llama系列Qwen系列DS系列 通用基础大模型 Prompt Learning / SFT / RLHF 应用编排集成框架 LangChainLlamaIndex Semantic KernelSpring AI 应用开发平台 社区生态 Coze 阿⾥云百炼⼤模型服务平台 Hugging Face魔搭 ChatBot Copilot Agent 行业 大模型 垂直 大模型 其他 大模型 服务组件 MCP/Tools向量数据库 缓存对象存储 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ AI 应用的痛点 01 基础资源问题 推理性能慢,服务器频繁超时,慢在哪里? 模型输出的内容是否准确,是否合规? 02 模型推理问题 03 成本问题 Token 消耗在哪些应用,哪些用户,哪 些部门? 如何及时发现掉卡,GPU利用是否有瓶颈? RDMA网络延迟,CPFS文件读取延迟 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ 一个典型的AI 原生应用架构及可观测诉求 AI 全栈统⼀监控 基于Prometheus 构建AI 全栈监 控⼤盘,包括模型性能分析、 Token成本分析、GPU资源异动 分析等。 模型调⽤全链路诊断 基于OpenTelemetry Trace 实现 ⽤户终端、⽹关、模型应⽤、模 型服务、外部依赖⼯具等全链路 追踪。 模型⽣成结果评估 构建统⼀⽇志分析平台,对模型 调⽤⽇志进⾏⼆次评估分析,实 现质量、安全、意图提取等语义 检测。 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ MCP 为大模型生态带来了哪些变化和挑战? 通⽤连接器解决“N×M”集成问题 MCP(Model Context Protocol)为⼈⼯智能模型和开发环境之间建 ⽴统⼀的上下⽂交互提供了标准化⽅法。 模型&MCP多轮交互导致“熵增” LLM模型、宿主环境和各种MCP 服务器之间的相互连接,会导致链 路复杂性提升、性能瓶颈诊断困难、SLA难以保障以及安全等问题, 可观测是降低“熵增”最有效的办法。 GOPS, i?X}v8?(Q?pG?XO?Qp.?J?R?@?(2025·^?5?u@ AI全栈统一监控 终端卡顿率 业务可达性 会话分析 响应耗时 推理逻辑 异常处理 依赖组件可⽤性 ⼯具可⽤性 模型服务稳定性 模型效果、成本 K8S/GPU资源异动 基础组件可⽤性 ⽤户体 验
李艳红-基于Opentelemetry 的大模型应用可观测