用SkyWalking做分布式追踪和应用

SkyWalking是观察性分析平台和应用性能管理系统。提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决方案。

特性:

多种监控手段,语言探针和servicemesh多语言自动探针,Java,.NETCore和Node.JS轻量高效,不需要大数据模块化,UI、存储、集群管理多种机制可选支持告警优秀的可视化方案Skywalking技术架构

整个系统分为三部分:

agent:采集tracing(调用链数据)和metric(指标)信息并上报OAP:收集tracing和metric信息通过analysiscore模块将数据放入持久化容器中(ES,H2(内存数据库),mysql等等),并进行二次统计和监控告警webapp:前后端分离,前端负责呈现,并将查询请求封装为graphQL提交给后端,后端通过ribbon做负载均衡转发给OAP集群,再将查询结果渲染展示Skywalking也提供了其他的一些特性:

配置重载:支持通过jvm参数覆写默认配置,支持动态配置管理集群管理:这个主要体现在OAP,通过集群部署分担数据上报的流量压力和二次计算的计算压力,同时集群也可以通过配置切换角色,分别面向数据采集(collector)和计算(aggregator,alarm),需要注意的是agent目前不支持多collector负载均衡,而是随机从集群中选择一个实例进行数据上报支持k8s和mesh支持数据容器的扩展,例如官方主推是ES,通过扩展接口,也可以实现插件去--支持其他的数据容器支持数据上报receiver的扩展,例如目前主要是支持gRPC接受agent的上报,但是也可以实现插件支持其他类型的数据上报(官方默认实现了对Zipkin,telemetry和envoy的支持)支持客户端采样和服务端采样,不过服务端采样最有意义官方制定了一个数据查询脚本规范:OAL(ObservabilityAnalysisLanguage),语法类似Linq,以简化数据查询扩展的工作量支持监控预警,通过OAL获取数据指标和阈值进行对比来触发告警,支持webhook扩展告警方式,支持统计周期的自定义,以及告警静默防止重复告警数据容器

由于Skywalking并没有自己定制的数据容器或者使用多种数据容器增加复杂度,而是主要使用ElasticSearch(当然开源的基本上都是这样来保持简洁,例如Pinpoint也只使用了HBase),所以数据容器的特性以及自己数据结构基本上就限制了业务的上限,以ES为例:

ES查询功能异常强大,在数据筛选方面碾压其他所有容器,在数据筛选潜力巨大(Skywalking默认的查询维度就比使用HBase的Pinpoint强很多)支持sharding分片和replicas数据备份,在高可用/高性能/大数据支持都非常好支持批量插入,高并发下的插入性能大大增强数据密度低,源于ES会提前构建大量的索引来优化搜索查询,这是查询功能强大和性能好的代价,但是链路跟踪往往有非常多的上下文需要记录,所以Skywalking把这些上下文二进制化然后通过Base64编码放入data_binary字段并且将字段标记为not_analyzed来避免进行预处理建立查询索引总体来说,Skywalking尽量使用ES在大数据和查询方面的优势,同时尽量减少ES数据密度低的劣势带来的影响,从目前来看,ES在调用链跟踪方面是不二的数据容器,而在数据指标方面,ES也能中规中矩的完成业务,虽然和时序数据库相比要弱一些,但在PB级以下的数据支持也不会有太大问题。

数据结构

如果说数据容器决定了上限,那么数据结构则决定了实际到达的高度。Skywalking的数据结构主要为:

数据维度(ES索引为skywalking_*_inventory)service:服务instance:实例endpoint:接口network_adress:外部依赖数据内容告警信息(ES索引为skywalking_alarm_record)并发控制(ES索引为skywalking_register_lock)指标(按维度/时间二次统计出来的例如pxx、sla等指标,例如ES索引skywalking_database_access_p75_month)数据库慢查询记录(数据库索引:skywalking_top_n_database_statement)调用链跟踪数据(调用链的trace信息,ES索引为skywalking_segment,Skywalking主要的数据消耗都在这里)指标(主要是jvm或者envoy的运行时指标,例如ES索引skywalking_instance_jvm_cpu)关联关系(维度/指标之间的关联关系,ES索引为skywalking*_relation*)特别记录二次统计指标原始数据其中数量占比最大的就是调用链跟踪数据和各种指标,而这些数据均可以通过OAP设置过期时间,以降低历史数据的对磁盘占用和查询效率的影响。

调用链跟踪数据

作为Skywalking的核心数据,调用链跟踪数据(skywalking_segment)基本上奠定了整个系统的基础,而如果要详细的了解调用链跟踪的话,就不得不提到openTracing。

openTracing基本上是目前开源调用链跟踪系统的一个事实标准,它制定了调用链跟踪的基本流程和基本的数据结构,同时也提供了各个语言的实现。如果用一张图来表现openTracing,则是如下:

openTracing基本结构

其中:

SpanContext:一个类似于MDC(Slfj)或者ThreadLocal的组件,负责整个调用链数据采集过程中的上下文保持和传递Trace:一次调用的完整记录Tag:节点/步骤中的关键信息Log:节点/步骤中的详细记录,例如异常时的异常堆栈Span:一次调用中的某个节点/步骤,类似于一层堆栈信息,Trace是由多个Span组成,Span和Span之间也有父子或者并列的关系来标志这个节点/步骤在整个调用中的位置Baggage:和SpanContext一样并不属于数据结构而是一种机制,主要用于跨Span或者跨实例的上下文传递,Baggage的数据更多是用于运行时,而不会进行持久化以一个Trace为例:

span间的关系

首先是外部请求调用A,然后A依次同步调用了B和C,而B被调用时会去同步调用D,C被调用的时候会依次同步调用E和F,F被调用的时候会通过异步调用G,G则会异步调用H,最终完成一次调用。

上图是通过Span之间的依赖关系来表现一个Trace,而在时间线上,则可以有如下的表达:

span的调用顺序

当然,如果是同步调用的话,父Span的时间占用是包括子Span的时间消耗的。

而落地到Skywalking中,我们以一条skywalking_segment的记录为例:

{trace_id:52.70.,endpoint_name:Mysql/JDBI/Connection/


转载请注明:http://www.aierlanlan.com/rzgz/1685.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了