应用监控

Note

使用应用监控服务需要进行实名认证,如果未进行实名认证,建议您先进行实名认证。

概述

性能监控通过用户在自己的服务中部署探针,以用户友好非侵入式的方式,分布式地采集用户服务的运行数据,并将数据汇总到监控服务器。监控服务器对数据进行记录、整理和分析后,向用户提供监控数据展示,调用链查询,错误规则管理三个不同维度功能。

监控数据

监控数据主要包括:

  • 异常记录:超出规定指标的数据将被记录到健康异常中;
  • 平均响应时间:入口请求在观察周期内的平均响应时间;
  • 请求频率、请求次数:入口请求在观察周期内的请求次数和频率(按分钟计);
  • 错误频率、错误次数、错误率:入口请求在观察周期内的错误次数和频率(按分钟计),以及错误次数与请求次数的比例。

监控数据通过列表和拓扑图两种方式向用户呈现。

列表

如下图所示,列表中展示了每个服务的基本监控数据,通过点击详细信息可以查看响应服务的全部监控数据.点击观察周期则更改相应统计数据的聚合周期,观察周期默认30分钟

数据列表

拓扑图

如下图所示,拓扑图展示了用户服务不同组件的调用情况及调用的监控数据,用户可以清楚的看到花费在每个组件的调用时间,调用频率,错误率等.方便用户定位自己服务问题所在,从而进行有针对性的解决.拓扑图页面也提供了平均响应时间,请求频率等数据的曲线图,方便用户了解自己服务各种监控数据的变化趋势。

拓扑图

调用链查询

一个请求从开始经过每个组件最终返回的过程称为一个trace,应用监控会为每个trace分配唯一的id称为traceId。traceId可用于搜索每条trace的详细信息,从而方便用户定位问题.接入agent后,服务的日志中默认会打印traceId,如图所示:

traceid

在[快照查询]中输入traceId可以搜索到相应的trace信息。如图所示:

搜索traceid

点击最左侧照相机图标,可查看trace的详细信息,如图所示,trace概览信息显示当前trace调用拓扑图及每个调用所花费的时间.

trace详细信息

点击调用栈则显示当前trace的调用栈及每个调用的时间,如图所示:

trace栈

错误规则管理

错误规则管理可用域添加错误规则,如图所示.规则类型分为三类:

  • 错误日志:检测错误日志中包含的关键字,出现关键字后触发事件
  • 异常:检测异常的名称,信息和堆栈中的关键字,出现关键字后触发错误事件
  • HTTP错误码:检测服务中出现的HTTP错误码,出现指定错误码后触发错误事件

错误规则

Note

触发错误事件后,如果需要收到错误事件报警,需要在报警管理中配置APM报警,具体请见创建报警