AutoMQ 可观测性实践:如何使用 OpenTelemetry 监控 Kafka 和底层流存储

news/2025/2/27 2:02:31

前言

我们在之前的文章里介绍了 AutoMQ 如何与 Prometheus、观测云[1]、夜莺监控[2]等后端进行集成并实现对 AutoMQ 的监控,本文将进一步介绍 AutoMQ 的可观测性架构,以及 AutoMQ 如何实现多云可观测性。

可观测架构

Apache Kafka 的 Server 侧主要依赖 YammerMetrics[3] 这一第三方 Library 实现了指标的定义和采集,并通过将指标注册到 MBeans Server 的方式对外暴露观测接口,在实际集成过程中,还需要结合诸如 jmx_exporter[4] 之类的第三方 agent 来完成与可观测后端的集成。而 AutoMQ 作为一款面向云重新设计的流处理平台,自然需要更加原生化的可观测方式,而 OpenTelemetry[5](下简称 OTel) 作为当前云原生应用可观测性框架的事实标准,自然成为了 AutoMQ 的首选。AutoMQ 的整体可观测架构如下图所示,本节将分采集、导出、可观测后端、可视化前端四个部分进行介绍。

采集

在采集侧,AutoMQ 保留了 Apache Kafka 的原生指标采集链路,并通过 OTel 社区的 JMXMetrics Library 完成从 JMX 到 OTLP 格式的指标转换。对于 AutoMQ 自身新增的指标,则全部使用了 OTel SDK 进行采集。

导出

基于 Apache Kafka MetricsReporter 接口:

  • JmxReporter:即上文提到的 Apache Kafka 的原生指标导出方式,通过 YammerMetrics Library 将指标以 JMX 形式导出

  • AutoBalancerMetricsReporter:AutoMQ 实现的内部指标采集器,主要用于采集节点和分区维度的负载相关指标并写入内部 Topic

基于 OTLP SDK:

  • PrometheusMetricsExporter:基于 OTel SDK 的 PrometheusHttpServer 实现,AutoMQ 自身作为 HTTP Server 对外暴露端口,以被动拉取的方式提供 Prometheus 格式的指标

  • OpsMetricsExporter:AutoMQ 实现的基于对象存储的指标上报组件,可定时将采集到的指标进行序列化后上传至指定的对象存储 Bucket 中,以实现便捷的跨云跨账号的指标共享和分析

  • OTLPMetricsExporter:基于 OTel SDK 的 OtlpHttpMetricExporter 及 OtlpGrpcMetricExporter 实现,支持以 Grpc 或 HTTP 协议主动对外推送 OTLP 格式的指标

  • RemoteWriteExporter:AutoMQ 商业版提供的上报组件,支持直接以 Prometheus Remote Write 协议直写支持对应协议的后端存储,无需额外组件部署即能实现对绝大多数兼容 Prometheus 格式的后端的集成

可观测后端

基于上述导出方式,AutoMQ 支持以下多种后端服务的集成:

  • Prometheus:

    • Pull-based:可通过静态配置,或通过自建 HTTP 服务发现、kubernetes_sd 等方式配置 Prometheus Server 对 AutoMQ 进行指标拉取

    • Push-based:

      • 可通过自建 Vector 服务,监听并解析 OpsMetricsExporter 上传至对象存储的指标文件,并配置 Vector Prometheus Remote Write Sink 将指标写入 Prometheus Server

      • 可通过 OTLPMetricsExporter 向支持 OTLP receiver 的 Prometheus Server 直接以 OTLP 协议写入指标

      • 在 AutoMQ 商业版中,还可以通过控制台集成 Prometheus Server,通过 RemoteWriteExporter 直接写入指标

  • Datadog[6]:

    • Prometheus:Datadog agent 可在 OpenMetrics 配置中将 openmetrics_endpoint 配置为 AutoMQ 暴露的 Prometheus HTTP Server endpoint,即可实现对 Prometheus 格式的指标采集

    • OTLP:Datadog agent 也可以在 otlp_config 中配置开启 OTel receiver,并将 AutoMQ 的 OTLP endpoint 配置为 Datadog agent OTel receiver 相应的 endpoint,实现 OTLP 格式的指标导出

  • Datakit[7]:作为观测云的主要观测组件,Datakit 可以 agent 模式部署在 AutoMQ 节点,并通过配置 Prometheus 采集器进行指标拉取并上报至观测云 DataWay

  • 其他支持 Prometheus 协议的后端:如 GreptimeDB、VictoriaMetrics、Thanos 等,均可使用类似 Prometheus 的方式进行集成

可视化前端

AutoMQ 提供了基于 Prometheus 格式,且适配 Grafana、观测云、夜莺监控的仪表盘模板,在前面的文章中已经介绍过,本文不再赘述

配置方式

AutoMQ 1.2.x 及以上版本提供了统一的 URI 格式的监控导出配置,格式如下:

# <exporter_uri> 为不同 exporter 类型的 uri 表示,可配置多个 exporter 来同时支持多种导出方式
s3.telemetry.metrics.exporter.uri=<exporter_uri1>,<exporter_uri2>,<exporter_uri3>

不同 exporter_uri 根据协议配置方式如下:

  • Prometheus HTTP Server:
# hostname: HTTP Server 的 IP 或域名
# port:HTTP Server 的端口号
prometheus://?host=$hostname&port=$port
  • OTLP:
# endpoint: OTLP 后端服务的访问地址
# protocol: 使用 grpc 协议或 http 协议
otlp://?endpoint=$endpoint&protocol=$protocol
  • S3:
# AutoMQ 的对象存储上报方式默认开启,仅需配置对象存储的 bucket 即可,详细配置方式请参考 https://github.com/AutoMQ/automq/blob/main/core/src/main/java/kafka/automq/AutoMQConfig.java#L58
s3.ops.buckets=0@s3://$bucket?region=$region

AutoMQ 的指标采集优化实践

Histogram 类型指标窗口优化

Histogram 类型指标主要用于记录数据的统计学指标,如 avg、p50、p99 等,在 AutoMQ 中广泛用于衡量各类延迟、请求大小、排队时间等。

在 Apache Kafka 的原生指标中,Histogram 均通过 Cumulative 方式进行统计,也即采集的是程序启动以来的统计值。其中 p50,p99 等分位数通过一个定长(1024)的跳表,基于记录的数据点的时间戳计算出指数级衰减(Exponentially Decay)权重并进行数据点的驱逐,从而实现近一段时间内的分位数的效果。而 avg 则直接对外暴露启动以来的平均值,这在实际线上环境参考意义并不大,因此 AutoMQ 通过继承 MetricsReporter 实现了一个 DeltaHistogram 的转换,将 Apache Kafka 的部分原生 Histogram 的 avg 指标转换为固定时间窗口内的平均值,使得这部分指标能够更好的反应集群不同时间点的状态。

对于 AutoMQ 增加的 Histogram 类型指标,我们直接采取了 Delta 方式进行统计,即在每个上报时间窗口独立进行 avg、p50、p99 等指标的统计。

指标数据量优化

在 AutoMQ 早期进行指标 benchmark 时,我们发现 OTel 的 Histogram 类型指标,一个 OTel Histogram 对应产生三种 Metric Name:$name_bucket, $name_sum, $name_count。其中 $name_bucket 附加了一个 Label “le” 用于对记录的数据点进行分桶,在前端展示时可通过对 le 进行分位数计算来得到不同分位的统计值。这也就使得分位数的精度取决于桶切割的粒度,对于一些数据跨度范围较大的指标而言,则需要划分更多的桶,从而导致指标数据量迅速膨胀。为解决这一问题,AutoMQ 选择了在本地进行 Histogram 的 Delta 记录时直接计算出相应的分位数,从而将与 OTel Histogram 转换成了固定大小的 Gauge 类型指标,相对直接使用 OTel Histogram 数据量减少了近 80%。

AutoMQ 多云可观测性的集成实践

作为独立的流处理平台供应商,AutoMQ 商业版对业界主流云厂商的全托管监控方案均提供了相应的集成方式,通过 AutoMQ 控制台添加 Remote Write 集成,根据不同云厂商选择鉴权方式即可:

  • 阿里云可观测监控 Prometheus 版:使用 Basic Auth 鉴权方式,并填入阿里云对应具备 ARMS 写入权限的 RAM 用户 AK/SK 信息

  • 腾讯云 Prometheus 监控 / 华为云 Prometheus:使用 Bear Token 鉴权方式,并填入相应产品控制台获取的 token

  • Amazon Managed Service for Prometheus:使用 AWS SigV4 鉴权方式,根据控制台提示,为对应角色授予 AWS Prometheus 写入权限

  • (Comming Soon) 百度云 CProm:使用 Bear Token 鉴权方式,并填入 CProm 控制台生成的 token 及 CProm 实例 Id

  • (Comming Soon) Azure Monitor Managed Service for Prometheus:使用 AzureAD 鉴权方式,根据 Azure 文档完成 User-Assigned Managed Identity 授权,并填入 ClientId

总结

本文从各个方面对 AutoMQ 的可观测架构及集成进行了介绍,并结合 AutoMQ 的实际案例探讨了指标的具体优化实践。最后,本文还介绍了 AutoMQ 商业版在多云环境下实现可观测性的集成实践,未来 AutoMQ 还会继续完善可观测性架构的可扩展性,提供更多可观测系统的集成方式。

参考链接

[1] 如何使用观测云监测 AutoMQ 集群状态:https://www.automq.com/zh/blog/monitor-automq-cluster-using-guance-cloud

[2] AutoMQ 开源可观测性方案:夜莺 Flashcat:https://www.automq.com/zh/blog/automq-open-source-observability-solution-nightingale-flashcat#%E9%83%A8%E7%BD%B2%E5%A4%9C%E8%8E%BA%E7%9B%91%E6%8E%A7

[3] Metrics Core Library: https://mvnrepository.com/artifact/com.yammer.metrics/metrics-core/2.2.0

[4] jmx_exporter: https://github.com/prometheus/jmx_exporter

[5] What is OpenTelemetry: https://opentelemetry.io/docs/what-is-opentelemetry/

[6] Datadog:https://docs.datadoghq.com/getting_started/

[7] Datakit: https://docs.guance.com/datakit/


http://www.niftyadmin.cn/n/5869374.html

相关文章

基于Springboot的小说网站【附源码】

基于Springboot的小说网站 效果如下&#xff1a; 系统主页面 书库信息页面 书籍详情页面 推荐信息页面 小说推荐页面 书库信息页面 小说排行榜页面 系统管理页面 研究背景 随着互联网技术的快速发展&#xff0c;网络文学逐渐成为一种新兴的文学形式&#xff0c;吸引了大量读…

实体机器人在gazebo中的映射

这一部分目的是将真实的机器人映射到gazebo中&#xff0c;使得gazebo中的其他虚拟机器人能识别到真实世界的wheeltec机器人。 真实机器人的型号的wheeltec旗下的mini_mec。 一、在wheeltec官方百度云文档中找到URDF原始导出功能包.zip 找到对应的包 拷贝到工作空间下 在原有…

【C++】深入理解List:双向链表的应用

凭时间赢来的东西&#xff0c;时间肯定会为之作证。 前言 这是我自己学习C的第七篇博客总结。后期我会继续把C学习笔记开源至博客上。 上一期笔记是关于C的vector类知识&#xff0c;没看的同学可以过去看看&#xff1a;【C】探索Vector&#xff1a;灵活的数据存储解决方案-CS…

图扑农牧林数据分析可视化平台:智慧农业的“数字大脑”

在现代农业的发展中&#xff0c;数据的价值不言而喻。图扑推出的农牧林数据分析可视化平台&#xff0c;正是为农业数字化转型而生。 图扑平台基于自研的HT for Web GIS技术&#xff0c;结合遥感和卫星观测&#xff0c;构建了一个完整的农牧林数据可视化生态系统。平台不仅支持地…

elfk+zookeeper+kafka​数据流

申请7台部署elfkzookeeperkafka 数据流&#xff1a; filebeat(每台app) ------>【logstash(2) kafka(3)】 -------> logstash(1) -------> 【elasticsearch(3) kibana(1)】

Redis 中有序集合(Sorted Set)的使用方法

文章目录 前言1. 有序集合的特点2. 常用命令2.1 添加元素&#xff08;ZADD&#xff09;2.2 获取元素分数&#xff08;ZSCORE&#xff09;2.3 获取元素排名&#xff08;ZRANK / ZREVRANK&#xff09;2.4 获取范围内的元素&#xff08;ZRANGE / ZREVRANGE&#xff09;2.5 获取分数…

八、Spring Boot:RESTful API 应用

创建第一个 Spring Boot RESTful API 应用 在现代 Web 开发中&#xff0c;RESTful API 是一种非常流行的设计风格&#xff0c;它基于 HTTP 协议&#xff0c;提供了简单、灵活的方式来构建网络应用。Spring Boot 作为一款强大的微服务框架&#xff0c;提供了丰富的工具和支持&a…

ubuntu 20.04系统离线安装nfs

前提 OS&#xff1a;ubuntu 20.04 LTS 1,下载对应安装包 下载地址&#xff1a; https://ubuntu.pkgs.org/20.04/ubuntu-updates-main-amd64/nfs-common_1.3.4-2.5ubuntu3.7_amd64.deb.html 也可以采用我整理好的资源&#xff1a; https://download.csdn.net/download/m0_624…