KPI的精彩应用

现代IP 网络

IP网络从商用之初发展至今已经发生了翻天覆地的变化。过去在网络上面运行的业务应用及其有限,仅有少量简单的请求、响应型业务应用和文件传输应用,语音业务则由另外一套模拟网络独立承载。所以在那个时候只有少数商业处理流程会因为 IP网络故障或者性能下降而受到影响。

而今天几乎所有的公司、企业都在使用 IP网络直接支撑其关键业务系统的运行。网络上传输的流量里面不但包含有 ERP、CRM、Email 等关键数据业务应用,还包含有语音、传统 IP 视频、网真、视频监控以及一些基于 CIFS 协议的非正式应用。高速度、聚合化的现代 IP 网络的确给商业处理流程带来了卓越的便利性,然而这同时也意味着如果IP 网络发生故障或者性能下降,那么企业的业务运营就会立即受到显而易见的影响甚至是打击。

在现代 IP 网络中,应用和 IT 基础设施都变得越来越复杂。例如,如下图所示,典型的 N 层应用环境由终端用户连接到数据中心经过的 LAN 和 WAN 组成。而数据中心的设备架构取决于应用是如何设计的,但典型的情况是由一个应用交付控制器(ADC,例如负载均衡设备),以及 Web、应用和数据库服务器组成。此外,LAN 和 WAN 由交换机和路由器组成,同时也可能会有其他网络设备,例如防火墙、IDS、IPS以及广域网优化设备。

如今的业务应用从用户端到应用服务端的数据路径由更多的节点组成,这些节点在不同层次一个接一个的对应用交易数据进行着处理和转发,每一个都是潜在的故障点,也是增加“端到端”响应时间延迟的源头。

应用环境和 IT 基础设施的复杂度增加了网络管理的难度,而企业的业务运营对 IP 网络的高度依赖又进一步促使了新的管理需求的产生。

KPI在现代IP网络管理中的应用

面对上文所述的管理需求,有一个关键点是管理者要充分认识到管理现代IP网络需要管理部门具备端到端用户体验的量化解析能力。借助于流量分析工具,采用基于flow的分析能够帮助管理者完成例如量化链路利用率这样的任务,进一步讲,就是能够识别网络基础设施提供给不同业务应用多少带宽资源以及哪些用户正在分享这些资源。这对于基本的业务应用识别以及简单的故障诊断来说,常常是已经足够了。然而很多时候网络管理者还需要有能力进行更加深入和精确的量化解析,在这种情况下,网络管理部门需要具备数据包级别的分析能力。不但要能够辨别和度量用户访问业务应用的数据路径上的各个环节各自对于用户体验造成的影响,而且还要能够通过分析数据包头部信息甚至是数据负载内容查找问题的根本原因。

KPI 首先是一个可以度量的标准,用来衡量组织绩效是否达到关键成功因子的要求。对于一个IT应用服务来说,其关键成功因子可以归纳为用户访问这个应用服务时所获得的满意度,即用户体验满意度。举一个例子来说,假设用户在用IE浏览器访问一个企业协同办公系统时,从点击回车开始直到获得了服务器返回的全部数据为止,用户总共等待了 30秒钟,那么他对于这个应用服务一定不会满意。

通过分析用户访问应用服务的数据包和数据流,可以获得反映用户满意度的两个基本指标:可用性和响应性。可用性反映了应用服务是否可以正常访问,而响应性则反映了应用服务对用户请求进行响应的速度。这两个指标适用于所有基于 TCP 协议的应用服务,因为不需要解析应用层数据,仅通过分析TCP会话流就可以准确获得可用性和响应性的度量值。

在可用性和响应性指标都很好的情况下, 用户并不一定能够获得良好的满意度。同样举例来说,用户再次使用IE浏览器访问协同办公系统,点击回车后服务器立即返回数据,也就是说该应用服务
的可用性和响应性指标都很好,但是用户却发现服务器返回的数据并非他所请求的,而是 HTTP 500类型错误,此时用户体验满意度会大大降低。HTTP 500 类型错误并非表示该应用服务完全不可用,而是应用服务内部出现某种擦错导致这一部分用户请求的数据不可用,所以这样的事件不能用可用性指标来衡量,在这种情况下应该把这一类应用服务的响应失败事件独立增加为影响用户体验满意度的一个 KPI,并称其为服务器事件,该 KPI 反映服务器应用层内部错误导致的用户体验满意度下降。

类似的,如果是客户端应用层内部发生某种错误导致的用户体验满意度下降,就称其为用户端事件。例如,HTTP 400类型错误表示了用户向应用服务器发送了一条无效的请求信息。像服务器事
件和用户端事件这一类 KPI 只能通过解析应用层交易信息获得(例如 HTTP、DNS、LDAP 等等),TCP协议不含有任何反映应用层事件的信息。

所以,反映应用服务的用户体验满意度的 KPI 具有面向应用层的特性,针对不同类型的应用服务,应该采用适合其模式的 KPI 标准。对于一些相对特殊的应用服务,比如 VoIP 和 IP 组播,反映其用户体验满意度的KPI指标主要是丢包率。可用性、响应性、用户端事件、服务器事件、丢包(适用于 VoIP 和 IP 组播)这五个 KPI 指标所能反映的用户体验满意度基本可以涵盖所有的企业应用服务类型。NetScout 解决方案以这几个KPI 指标为核心,建立了一套以应用服务为中心的网络管理功能模块。实时分析用户所关注的核心应用服务的 KPI 指标,采用仪表板的方式显示应用服务运行状态,当然这也直接展示了用户体验的满意度。

当监测到某个应用服务的KPI指标下降,NetScout系统自动产生告警,并且将应用服务运行状态由绿色(正常)转换成黄色(警告)或者红色(严重)通知管理者。造成应用服务KPI指标下降的原因可能会有很多,比如由于网络链路拥塞导致的响应性下降,或者是应用服务器自身宕机导致服务不可用等等,NetScout系统在产生相应的 KPI告警同时,关联链路带宽利用率、应用服务器响应时间以及受影响的分支机构等信息,并提供给用户进行根本原因分析。

在传统的观念里,网络管理所指的就是管理网络自身,特别是管理那些组成网络的设备(例如交换机、路由器等等)和这些设备之间的网络链路,保障这些设备和网络链路的正常运行时间(UPTIME)是网络管理部门的首要任务。这一点毫无争议,但是随着 IT系统的日益成熟和复杂化,越来越多的公司和企业都意识到单一的侧重于网络自身和硬件设备的网络管理已经无法满足需求,管理者需要把工作落实到如何保障业务系统的各个环节上来。利用 NetScout解决方案所提供的针对应用服务的KPI 分析功能,管理者能够直接获得端到端用户体验的量化解析数据,这对于满足复杂应用环境的网络管理需求至关重要。而从保障应用服务运行的角度出发进行网络管理工作,也更加符合当今应用环境下网络管理部门的职能,并且能够体现网络管理对于企业核心业务运营支撑的价值。

Ricky