LLM 可观测性:使用 Elastic 的 OpenAI 集成追踪使用情况并管理成本

2025年3月17日   |   by mebius

作者:来自 ElasticSubham SarkarDaniela Tzvetkova

%title插图%num

Elastic 全新的 OpenAI 可观测性集成提供对 OpenAI 模型使用情况的全面洞察。借助我们预构建的仪表板和指标,你可以高效追踪和监控 OpenAI 模型的使用情况,包括 GPT-4o 和 DALLE。

在 AI 驱动的应用日益普及的时代,理解和管理语言模型的使用至关重要。OpenAI 率先开发了先进的语言模型,支持从聊天机器人到代码生成等众多应用。然而,随着应用复杂度和规模的增长,监控关键指标以确保最佳性能成本效益变得尤为重要。尤其是在性能与可靠性监控以及成本管理等方面,精准的观测对于最大化语言模型的潜力至关重要。

随着企业广泛采用 OpenAI 的多种 AI 模型,包括 GPT-4oGPT-3.5 Turbo 等语言模型,DALLE 等图像模型,以及 Whisper 等音频模型,全面的使用监控对于跟踪和优化每种模型的性能、可靠性、使用情况和成本至关重要。

Elastic 全新的 OpenAI 集成 解决了开发者和企业在使用这些模型时面临的挑战。它专为提供统一视图而设计,使你能够全面监控所有 OpenAI 模型的使用情况。

OpenAI 集成的关键优势

OpenAI 采用基于使用量的计费模式,适用于其所有服务,因此追踪消耗情况识别具体使用的模型对控制成本和优化部署至关重要。Elastic 全新的 OpenAI 集成 通过 OpenAI Usage API 监控消耗情况,识别使用的特定模型,并提供开箱即用的预构建仪表板,简化使用模式的监控流程。

继续阅读,你将了解该集成的全部功能,包括 设置流程、如何使用预构建仪表板,以及如何利用 Elastic 的 LLM 可观测性 获取深度洞察。

OpenAI 集成的设置

前提条件

要按照本指南操作,你需要:

  • Elastic Cloud 账号(版本 8.16.3 或更高)。或者,你可以使用 Elastic Cloud Serverless,这是一种全托管解决方案,可自动根据使用情况扩展,免去基础设施管理,让你专注于数据价值挖掘。
  • OpenAI 账号,并拥有 Admin API Key
  • 已部署的 OpenAI API 应用,用于与 OpenAI 模型交互。

生成示例 OpenAI 使用数据

如果你是 OpenAI 的新用户,并希望尝试此集成,你可以快速设置并使用示例数据填充仪表板。只需通过 OpenAI API 进行交互,生成一定的使用量即可。如果你还没有 OpenAI API Key,可以在此创建。有关身份验证的详细信息,请参考 OpenAI 文档

OpenAI 文档提供了各个 API 端点的详细示例。以下是用于生成示例使用数据的相关 API 及其链接

  • 语言模型(文本生成):使用 Chat Completions API 生成文本。
  • 音频模型(文本转语音):使用 Speech API 将文本转换为音频。
  • 音频模型(语音转文本):使用 Transcriptions API 将音频转换为文本。
  • 向量嵌入(Embeddings):使用 Embeddings API 生成文本的向量表示。
  • 图像模型:使用 Image Generation API 根据文本提示生成图像。
  • 内容审核(Moderation):使用 Moderation API 检测文本内容的合规性。

此外,你还可以探索更多 API 端点来生成不同类型的示例数据。

⚠️ 注意:在运行这些示例(使用你的 API Key)后,请记住 OpenAI Usage API 存在一定的延迟。通常需要几分钟,使用数据才会出现在仪表板中。

配置

要将 OpenAI 集成 连接到你的 OpenAI 账户,你需要提供 OpenAI Admin API Key。该集成将使用此密钥定期从 OpenAI Usage API 获取使用数据

支持的数据流

该集成支持 8 种不同类别 的 OpenAI API 使用数据流:

  • 音频合成(文本转语音)
  • 音频转录(语音转文本)
  • 代码解释器会话
  • 文本补全(语言模型)
  • 向量嵌入(Embeddings)
  • 图像生成
  • 内容审核
  • 向量存储

默认情况下,所有数据流均已启用,但你可以禁用与自身需求无关的数据流。所有启用的数据流都会在一个统一的仪表板中可视化,提供完整的使用情况视图

高级配置

对于高级用户,该集成还提供额外的配置选项,包括:

  • 调整数据桶宽度(Bucket Width)
  • 设置初始时间间隔(Initial Interval)

详细的配置说明请参考官方集成文档

利用开箱即用的仪表板提升可视性

你可以通过以下两种方式访问 OpenAI 仪表板

  1. 从仪表板菜单访问

    • 在左侧面板中导航至 “Dashboards” 菜单
    • 搜索 “OpenAI”,在搜索结果中选择 “[Metrics OpenAI] OpenAI Usage Overview” 以打开仪表板。
  2. 从集成菜单访问

    • Elastic 管理面板 中,打开 “Integrations” 菜单。
    • 选择 OpenAI,进入 “Assets” 选项卡。
    • 仪表板资产(Dashboards Assets) 中,选择 “[Metrics OpenAI] OpenAI Usage Overview” 进行查看。

了解 OpenAI 预配置仪表板

预构建仪表板 提供了 OpenAI API 使用情况结构化视图,展示以下关键指标:

  • 令牌使用量(Token Usage)
  • API 调用分布(API Call Distribution)
  • 各模型的调用次数(Model-wise Invocation Counts)
  • 顶级项目、用户及 API Key 统计
  • 图像生成、音频转录及文本转语音的详细使用情况

通过分析这些指标,用户可以跟踪使用模式,并优化 AI 驱动的应用

OpenAI 使用指标概览

%title插图%num

该仪表板部分展示了 OpenAI 的关键使用指标,包括:

  • 调用率(Invocation Rates)
  • 令牌使用量(Token Usage)
  • 高性能模型统计(Top-Performing Models)
  • 总调用次数(Total Invocations)
  • 总令牌数量(Total Tokens)
  • 按对象类型统计的调用次数(Invocation Count by Object Type)

通过这些洞察,用户可以优化模型使用降低成本,并提高 AI 模型集成的效率

最高性能的项目、用户和 API Key ID

%title插图%num

在这里,你可以根据调用次数分析 顶级项目 ID、用户 ID 和 API Key ID。这些数据可为组织提供有价值的见解,帮助跟踪不同项目和应用的使用模式。

令牌指标(Token Metrics)

%title插图%num

在此仪表板部分,你可以查看不同模型的令牌使用趋势。这有助于分析各类输入(如音频、嵌入、内容审核)、输出(如音频)及缓存输入令牌的趋势。该信息可帮助开发者优化提示词提高令牌使用效率

图像生成指标(Image Generation Metrics)

%title插图%num

AI 生成图像在各行业中越来越受欢迎。本部分概述了 图像生成指标,包括按模型划分的调用率最常见的输出尺寸。这些数据有助于评估调用成本分析图像生成使用情况

音频转录指标(Audio Transcription Metrics)

%title插图%num

OpenAI 的 AI 转录服务使语音转文本转换更加便捷。本部分跟踪 音频转录指标,包括调用率每个模型的总转录时长(秒)。了解这些趋势有助于企业优化成本,提升基于音频转录的应用效率。

音频语音指标(Audio Speech Metrics)

%title插图%num

OpenAI 的文本转语音(TTS)模型可为辅助工具虚拟助手等应用提供逼真的语音合成。本部分分析 TTS 调用率每个模型的合成字符数,提供关于 AI 语音合成应用趋势的洞察。

创建警报和 SLO 以监控 OpenAI

与所有 Elastic 集成一样,所有日志和指标数据均可用于 Elastic Observability 的各项功能,包括 SLOs警报、自定义仪表板日志分析 等。

为了主动管理 OpenAI 令牌使用避免意外成本,可以在 Observability Alerts创建自定义阈值规则。

示例:

  • 选择相关数据流,配置规则汇总相关令牌字段(如适用,也可包含其他令牌相关字段)。
  • 设置阈值来代表期望的使用上限。
  • 一旦该阈值在指定时间内(如每日或每小时)被超出,系统将发送警报通知

%title插图%num

警报通知触发时,其中包含的 “警报详情”(Alert Details) 页面将提供关于违规的详细信息。例如,你可以查看违规开始时间当前状态,以及历史上是否发生过类似违规。这些信息有助于提前发现问题并采取措施,提升系统的稳定性和弹性

%title插图%num

示例:

要创建一个监控 OpenAI 模型分布的 SLO,请按照以下步骤操作:

  1. 定义自定义指标 SLI(服务等级指标):

    • 将符合条件的事件(good events)定义为 openai.base.model 包含 gpt-3.5* 的请求。
    • 将总事件(total events)定义为所有 OpenAI 请求。
    • 事件按 openai.base.project_idopenai.base.user_id 进行分组。
  2. 设定 SLO 目标

    • 例如,设定目标值为 80%,表示至少 80% 的请tgcode求应满足 SLI 条件tgcode。
  3. 监控时间窗口

    • 采用 7 天滚动窗口,持续跟踪不同项目和用户的模型使用情况。

这样可以识别可能过度使用昂贵模型的项目和用户,帮助优化成本并提高资源管理效率。

%title插图%num

%title插图%num

你现在可以按项目和用户跟踪 OpenAI 模型请求的分布情况。此示例展示了 Elastic 的 OpenAI 集成如何帮助优化成本。通过监控由成本效益较高的 GPT-3.5 处理的请求比例(SLI),并将其与 80% 目标值(SLO 的一部分)进行对比,你可以快速识别哪些项目或用户因过度使用 GPT-4-turbo、GPT-4o 等模型而导致成本上升。这种可见性使得精准优化策略成为可能,确保你的 AI 计划在利用先进功能的同时仍保持成本效益。

结论、下一步行动及进一步阅读

你现在已经了解 Elastic 的 OpenAI 集成为依赖 OpenAI 模型的应用提供了关键的监控工具。通过全面且可定制的仪表板,该集成使 SRE(站点可靠性工程师)和开发人员能够高效监控性能、管理成本并优化 AI 系统。现在,你可以按照本博客的指南开始集成并监控你的 OpenAI 使用情况!我们期待你的反馈,并欢迎提出改进建议。

进一步学习:

原文:LLM observability: track usage and manage costgcodets with Elastic’s OpenAI integration — Elastic Observability Labs

文章来源于互联网:LLM 可观测性:使用 Elastic 的 OpenAI 集成追踪使用情况并管理成本

Tags: , , , ,