Google Cloud 的 Vertex AI 平台的 LLM 可观测性 —— 了解性能、成本和可靠性
2025年4月14日 | by mebius
作者:来自 ElasticIshleen Kaur,Muthukumar Paramasivam及Daniela Tzvetkova
随着各类组织越来越多地采用大语言模型(LLMs)来支持内容创作、检索增强生成(RAG)和数据分析等 AI 驱动的应用,SRE 和开发人员正面临新的挑战。监控工作流、分析输入与输出、管理查询延迟以及控制成本等任务变得至关重要。LLM 可观测性通过提供对模型性能的清晰洞察,帮助解决这些问题,使团队能够快速识别瓶颈、优化配置并提升可靠性。借助更好的可观测性,SRE 可以更有信心地扩展 LLM 应用,特别是在像 Google Cloud 的 Vertex AI 这样的平台上。
Elastic 可观测性与 Google Cloud 的 Vertex AI 平台的 LLM 集成正式上线
我们很高兴地宣布,Elastic 与 Vertex AI 的集成现已正式支持在 Google Cloud 上托管的 LLM 的监控。此集成使用户能够通过深入了解 Vertex AI 上模型的使用情况、成本和运行性能,获得增强的 LLM 可观测性,包括延迟、错误、token 使用量、模型调用频率以及模型使用的资源。通过利用这些数据,组织可以优化资源使用、识别并解决性能瓶颈,提升模型的效率与准确性。
使用 Vertex AI 平台的 AI 驱动应用的可观测性需求
利用 AI 模型会带来一些围绕 AI 驱动应用可观测性和监控的独特需求。使用 LLMs 所面临的一些挑战包括调用 LLM 的高成本、LLM 响应的质量与安全性,以及 LLM 的性能、可靠性与可用性。
缺乏对 LLM 可观测性数据的可见性,会让 SRE 和 DevOps 团队更难确保他们的 AI 驱动应用能够满足在可靠性、性能、成本以及 AI 生成内容质量方面的服务级别目标,并具备足够的遥测数据来排查相关问题。因此,在 Google Cloud 的 Vertex AI 平台上,实时对托管模型的性能进行强大的 LLM 可观测性监控和异常检测,对于 AI 驱动应用的成功至关重要。
根据 LLM 应用的不同需求,客户可以使用在 Vertex AI 平台上托管的不断扩展的模型列表,例如 Gemini 2.0 Pro、Gemini 2.0 Flash 以及用于图像生成的 Imagen。每个模型在某些特定领域表现出色,并能生成包括语言、音频、视觉、代码等模态的内容。没有两个模型是完全相同的;每个模型都有特定的性能特征。因此,服务运维人员需要能够追踪每个模型的个体性tgcode能、行为和成本。
利用 Vertex AI 指标解锁洞察力
Elastic 与 Google Cloud 的 Vertex AI 平台的集成可以收集托管在 Vertex AI 上的模型的各种指标,使用户能够有效地监控、分析并优化他们的 AI 部署。
一旦你使用了该集成,就可以在 Vertex AI 仪表盘中查看所有指标。
这些指标可以分为以下几类:
预测指标
预测指标提供了关于模型使用情况、性能瓶颈和可靠性的关键洞察。这些指标有助于确保运行顺畅、优化响应时间,并保持强大而准确的预测能力。
-
按端点划分的预测次数:衡量不同端点上的总预测次数。
-
预测延迟:提供生成预测所需时间的洞察,帮助用户识别性能瓶颈。
-
预测错误:监控各端点上的预测失败次数。
模型性能指标
模型性能指标提供了关于部署效率和响应能力的关键洞察。这些指标有助于优化模型性能,并确保可靠的运行。
-
模型使用情况:跟踪不同模型部署之间的使用分布。
-
Token 使用量:跟踪每个模型部署所消耗的 token 数量,这对于了解模型效率至关重要。
-
调用频率:跟踪每个模型部署的调用频率。
-
模型调用延迟:衡量调用模型所需的时间,有助于诊断性能问题。
资源利用率指标
资源利用率指标对于监控资源效率和工作负载性能至关重要。它们有助于优化基础设施、防止瓶颈,并确保 AI 部署的顺利运行。
-
CPU 利用率:监控 CPU 使用情况,以确保为 AI 工作负载分配最优资源。
-
内存使用量:跟踪所有模型部署的内存消耗情况。
-
网络使用量:衡量发送和接收的字节数,提供关于模型交互期间数据传输的洞察。
概览指标
这些指标提供了关于托管在 Google Cloud 的 Verttgcodeex AI 平台上模型的整体概况。它们对于跟踪整体性能、优化效率以及识别部署中的潜在问题至关重要。
-
总调用次数:所有模型和端点的预测调用总次数,提供活动的全面视图。
-
总 token 数量:所有模型交互中处理的 token 总数,提供关于资源利用率和效率的洞察。
-
总错误次数:所有模型和端点中遇到的错误总次数,帮助识别可靠性问题。
所有指标都可以按区域进行过滤,提供更有针对性的分析。
注:Elastic 与 Vertex AI 的集成提供了对两种部署模型的全面可见性:预配置吞吐量(容量预分配)和按需付费(根据需要消耗资源)。
结论
与 Vertex AI 的集成代表了在增强 Google Cloud 的 Vertex AI 平台用户的 LLM 可观察性方面迈出了重要的一步。通过解锁大量可操作的数据,组织可以评估 LLM 的健康状况、性能和成本,并解决操作问题,从而确保 AI 驱动应用程序的可扩展性和准确性。
现在,你已经了解了 Vertex AI 集成如何增强 LLM 可观察性,接下来就轮到你亲自尝试了。启动一个 Elastic Cloud,开始监控托管在 Google Cloud 的 Vertex AI 平台上的 LLM 应用程序。
文章来源于互联网:Google Cloud 的 Vertex AI 平台的 LLM 可观测性 —— 了解性能、成本和可靠性