Elastic Observability 8.16:增强的 OpenTelemetry 支持、高级日志分析和简化的入门流程

2024年11月29日   |   by mebius

作者:来自 ElasticLuca Wintergerst, Alex Fedotyev, Vinay Chandrasekhar, Miguel Luna

%title插图%num

Elastic Observability 8.16 宣布了几个关键功能:

  • Amazon Bedrock 集成 LLM 可观察性为基于 Amazon Bedrock 构建的 LLM 应用程序添加了全面的监控功能。这种新的集成提供了开箱即用的仪表板和对模型性能、使用模式和成本的详细洞察 —— 除了对使用 Azure OpenAI 的应用程序的现有支持外,还使 SRE 和开发人员能够有效地监控和优化基于 Amazon Bedrock 构建的生成式 AI (GenAI) 应用程序。
  • 使用 Elastic Distributions of OpenTelemetry (EDOT) 的统一 Kubernetes 可观察性通过 OpenTelemetry Operator 提供 OpenTelemetry 收集器的自动部署和配置。这种简化的方法包括零代码检测选项和预配置的仪表板,使组织无需手动设置即可快速全面了解其 Kubernetes 环境。
  • 增强的日志分析和简化的入门体验引入了具有上下文感知的 Discover 体验和新的快速入门工作流程。改进后的 Discover 界面可根据内容类型自动调整数据展示,而新的入门工作流程简化了主机监控、Kubernetes 监控和 Amazon Firehose 投递流的设置流程。

Elastic Observability 8.16 现已在 Elastic Cloud 上推出 – 这是唯一一款包含此最新版本所有新功能的托管 Elasticsearch 产品。你还可以下载 Elastic Stack 和我们的云编排产品 – Elastic Cloud Enterprise 和 Elastic Cloud for Kubernetes – 以获得自我管理体验。

Elastic 8.16 还有哪些新功能?查看 8.16 公告帖子了解更多信息 >>

Amazon Bedrock 集成以实现 LLM 可观察性

随着基于 LLM 的应用程序不断发展,SRE 和开发人员必须监控这些 GenAI 应用程序的性能和成本。

我们针对 Elastic Observability 的新 Amazon Bedrock 集成(技术预览)提供了对 Amazon Bedrock LLM 性能和使用情况的全面洞察,开箱即用,简化了 Amazon Bedrock 指标和日志的收集,使获取可操作的洞察和高效管理模型变得更加容易。此集成设置简单,包括预构建的仪表板。借助这些功能,SRE 现在可以无缝监控、优化和排除使用 Amazon Bedrock 的 LLM 应用程序的故障,并实时了解不同模型的调用率、错误计数和延迟。Bedrock 集成还增加了通过 OpenTelemetry 提取和分析 LangChain 跟踪数据的现有能力,从而为 LLM 和基于 LLM 的应用程序提供全面的可观察性。

Amazon Bedrock 集成提供了丰富的开箱即用可见性,可查看 Amazon Bedrock 中模型(包括文本和图像模型)的性能和使用情况信息。下面的 Amazon Bedrock 概览仪表板提供了各种模型的调用、错误和延迟信息的汇总视图。

%title插图%num

下方的详细日志视图可让你全面了解原始模型交互,捕获模型生成的输入(prompt – 提示)和输出(response – 响应)。这种透明度使你能够分析和优化 LLM 处理不同请求的方式,从而更精确地微调提示结构和生成的模型响应。通过密切监控这些交互,你可以改进提示策略并提高模型输出的质量和可靠性。

%title插图%num

Amazon Bedrock 概览仪表板提供了初始和最终响应时间的全面视图。它包括一个百分比比较图,突出显示了这些响应阶段之间的性能差异,使你能够快速识别 LLM 交互中的效率改进或潜在瓶颈。

%title插图%num

与任何 Elastic 集成一样,Amazon Bedrock 日志指标完全集成到 Elastic Observability 中,使你能够利用 SLO、警报、自定义仪表板和详细日志探索等功能。

简单易用的 OpenTelemetry (OTel) 数据采集

自动化 Kubernetes 基础设施和应用程序监控

我们通过将 OpenTelemetry 与自动入门和预配置仪表板集成,简化了 Kubernetes 监控。这最大限度地减少了人工干预,使组织能够专注于数据洞察而不是基础设施管理。

OTel 运营商支持的 EDOT 编排可自动执行部署收集器等繁琐的任务,并通过使应用程序团队能够使用基于注释的零代码检测在 Kubernetes 中运行的应用程序,提供自助服务方法。

%title插图%num

1. 使用 EDOT SDK 实现 OTel Collector 生命周期自动化和应用程序自动检测

我们现在使用 OpenTelemetry Operator 来自动化整个 EDOT Collector 生命周期,从部署到扩展和更新。通过支持 Node.js、JavaPython 等多种语言的 EDOT SDKs 实现自动检测,用户可以专注于应用程序而不是可观察性检测。

这个三步流程简化了使用 Helm 为 Kubernetes 部署 OpenTelemetry。首先,用户将 OpenTelemetry 存储库添加到 Helm 以简化访问。然后,使用单个命令安装 OpenTelemetry Operator,自动完成设置和配置。最后,通过将库自动注入带注释的 pod,可以轻松实现可选检测。此过程为 Kubernetes 环境提供了快速、轻松的可观察性。

%title插图%num

2. 预打包的 OTel Kubernetes

我们已捆绑所有必要的 OTel 组件以实现 Kubernetes 可观察性,包括接收器和处理器。OTel 原生 Kibana 仪表板为你提供全面的可观察性,无需手动配置。通过利用 Kubernetes 和 Kubeletstats 接收器等接收器,我们现在为你带来简便易用的可观察性,从而简化 Kubernetes 环境中的监控过程。

%title插图%num

3. 使用 EDOT Collector 直接跟踪到 Elasticsearch — 无需模式转换!

EDOT Collector 消除了对 APM 服务器的需求,允许跟踪数据通过 Elasticsearch 导出器直接流入 Elasticsearch。这减少了基础设施开销,同时保持了丰富的实时性能洞察。通过将 APM 功能整合到 EDOT 生态系统中,Elastic 降低了运营复杂性和成本 — 提供了精简、可扩展的可观察性解决方案。

%title插图%num

这种方法确保我们完全保留 OpenTelemetry 的语义约定和数据结构(包括资源属性),以实现一致、可靠的可观察性。

日志分析增强功能

上下文 Discover 体验

Kibana 8.16 中的 Discover 现在可以根据正在探索的数据类型自动调整数据表显示。这种简化的上下文感知方法通过简化数据探索和突出显示关键日志见解(无需额外配置)来提高工作效率。这只是我们不断努力使 Discover 成为日志分析的首选之地的开始。

%title插图%num

新的摘要列让你一目了然地查看重要信息。服务名称会突出显示,并且默认显示重要资源字段,然后是日志消息、错误或堆栈跟踪。

当将 “log.level” 和 “service.name” 等选定字段单独添加为专用列时,也存在类似的改进。日志级别根据严重程度突出显示,服务名称也具有更丰富的显示状态并提供指向 APM UI 的直接链接。

%title插图%num

带有修复流程的数据集质量页面

Data Set Quality 页面已扩展为修复流程,以解决导致 _ignored 字段的常见问题。用户界面现在不仅突出显示这些问题,而且还提供了一种快速简便的修复方法 – 提高日志的整体数据质量和可用性。

%title插图%num

简化的入门和主机监控

我们正在将主机功能移至正式发布,帮助你更有效地检测和解决主机问题。主要改进包括:

  • 查看 APM 检测到的主机及其指标(即使你没有明确观察它们)
  • 轻松入门你的主机
  • 在可观察性中获取主机的一致指标,例如主机、基础设施清单、仪表板

快速入门工作流程

我们在 “Add Data – 添加数据” 页面中引入了三个新的快速入门工作流程,以简化设置或遥测数据提取过程 – 主机监控、Kubernetes 监控和 Amazon Data Firehouse(技术预览版)。

主机监控(host monitoring):扫描主机上的日志和指标并自动安装以下集成:System、Custom、Apache、Docker、Nginx、Redis、MySQL、RabbitMQ、Kafka、MongoDB、Apache Tomcat、Prometheus 和 Haproxy。当用户按照此快速入门指南工作流程进行主机监控(Linux 和 macOS)时,他们将获得独立 Elastic Agent 的配置文件,其中包含检测到的集成的预定义默认值。用户可以根据需要调整提供的配置文件,并使用现有的基础设施即代码工具在生产环境中进行代理生命周期管理。

%title插图%num

在该引导工作流程结束时,系统会为用户提供指向每个集成所对应的预建仪表板的链接,以便他们探索自己的数据。

%title插图%num

Kubernetes monitoring:使用独立的 Elastic Agent 设置 Kubernetes 集群和容器工作负载的监控。当用户从 “Add Data – 添加数据” 页面按照此快速入门指南工作流程进行 Kubernetes 监控时,他们将获得一个 Kubernetes 清单文件,其中包含用于日志和指标收集的预定义默认值。系统和 Kubernetes 集成也会自动安装在 Kibana 中。tgcode用户可以根据需要调整提供的清单文件,并使用现有的基础设施即代码工具在生产环境中进行代理生命周期管理。

%title插图%num

在该引导工作流程结束时,系统会为用户提供 Kubernetes 集群概览仪表板的链接,以便他们可以探索刚刚提取的指标和日志。

%title插图%num

Amazon Data Firehose(技术预览):此引导式工作流程使用预填充的 Amazon CloudFormation 模板简化了 Amazon Data Firehose 传输流的设置,从给定客户账户的多个服务中提取所有可用的 Amazon CloudWatch 日志和指标。

%title插图%num

用户可以使用 AWS 控制台或 AWS CLI 完成此引导式工作流程,如下图所示。用户无需在此工作流程中配置或管理任何代理(无代理)。

%title插图%num

在此引导式工作流结束时,用户将获得一个链接,可直接访问预构建的仪表板或精心设计的用户界面,以按服务探索其数据。

新的和增强的集成

Salesforce 集成

我们宣布更新和改进的 Salesforce 集成正式发布 (GA)。它现在可以更无缝地连接到 Salesforce、从 Salesforce 收集和提取数据,从而更好地了解你的 Salesforce 环境。

MongoDB Atlas 集成

此新集成通过收集和分析日志和指标,提供对 MongoDB Atlas 性能和运行状况的全面可观察性和监控。此集成处于测试阶段。

Amazon Data Firehose CloudWatch 指标支持

Elastic 与 Amazon Data Firehose 的集成现在包括将 CloudWatch 指标流式传输和路由到 Elastic 中的正确目标的能力。借助此支持,你现在可以通过 Amatgcodezon Data Firehose 将日志和指标无缝地流式传输到 Elastic,从而提供对其 AWS 环境的更完整视图。此集成处于测试阶段。

Hosts 功能正式推出正式发布

检测并解决主机问题

我们正在将主机功能迁移至正式发布,以帮助你检测并解决主机问题。

%title插图%num
开箱即用地检测并解决主机问题

主机功能将通过以下方式帮助你:

  • 通过轻松的入门流程快速入门你的主机(通过 OTel)
  • 使用警报查看需要注意的事项并按照警报工作流程开始 RCA
  • 比较主机性能指标以查找根本原因
  • 通过查看主机上运行哪些 APM 仪表服务来发现依赖关系
  • 通过查看进程和线程来识别资源瓶颈(通过通用分析)

全新清单功能

查看你的资产及其关注点

清单(Inventory)功能将成为集中查看你所有资产及其需要关注事项的单一平台 —— 即便只是通过日志,也能实现这一点。

%title插图%num
新清单 —— 仅使用日志调试服务

我们发布的此功能的技术预览版将允许你:

  • 即使你只收集日志,也可以查看你的主机、容器和服务
  • 使用警报查看需要注意的事项,并按照警报工作流开始 RCA
  • 使用 Discover 和服务之间的工作流执行无缝tgcode服务分析

综合监控增强功能

显著改进的警报功能

随着 8.16 版本的发布,Elastic 综合监控用户现在可以增强对 Elastic Observability 中警报自定义的控制。用户可以设置灵活的条件,包括监控停机次数、特定测试位置和适用标签。还可以配置多个警报规则以进行量身定制的监控。

%title插图%num

使用多因素身份验证 (MFA) 测试用户旅程的一流支持

我们很高兴地宣布,Elastic 合成监控现在包含一流的多因素身份验证 (multifactor authentication – MFA) 支持,使受保护应用程序的安全测试变得前所未有的简单。此增强功能使用户能够完全自动化安全应用程序上的测试,而无需通过 UI 交互来生成身份验证代码 — 为内联和基于项目的旅程提供更顺畅、更安全的合成监控工作流程。

%title插图%num

试用

发行说明中阅读有关这些功能和更多内容。

现有的 Elastic Cloud 客户可以直接从 Elastic Cloud 控制台访问其中的许多功能。没有利用云上的 Elastic?开始免费试用

本文中描述的任何功能或特性的发布和时间均由 Elastic 自行决定。任何当前不可用的功能或特性可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用或提到了第三方生成 AI 工具,这些工具由其各自的所有者拥有和运营。Elastic 无法控制第三方工具,我们对其内容、操作或使用不承担任何责任,也不对你使用此类工具可能产生的任何损失或损害承担任何责任。将 AI 工具用于个人、敏感或机密信息时,请谨慎行事。你提交的任何数据都可能用于 AI 培训或其他目的。我们无法保证你提供的信息会得到安全或保密。在使用任何生成 AI 工具之前,你应该熟悉其隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及其相关标志是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:Elastic Observability 8.16: LLM observability for Amazon Bedrock, OTel, and more | Elastic Blog

文章来源于互联网:Elastic Observability 8.16:增强的 OpenTelemetry 支持、高级日志分析和简化的入门流程