会员中心
用户名:
密 码:
 
  忘记密码
通信管理
一种WAP网关错误码分析系统的设计与实现
文章来源:本站原创  发布时间:2014-08-19  浏览次数:787
作者:万子秋
(中国移动辽宁公司信息技术中心 110179)
摘要:随着WAP业务故障处理的及时性、准确性不断提高,一种可快速自动定位的故障分析系统变得至关重要。本文设计并实现了一套WAP网关错误码分析系统,可通过自动采集、对比分析错误码变化规律,定位故障原因及预判潜在问题。
关键词: WAP网关;错误码;分析
1.概述
      随着移动互联网的飞速发展,手机上网业务使用日渐频繁,用户对上网体验的要求日益提高。因此,作为处理手机上网的关键节点WAP业务[1]的运营稳定性要求也越来越高。目前,仅监控WAP系统的硬件指标,已经无法满足当前对WAP系统的维护要求。很多WAP业务故障没有明显的故障告警(比如:软件吊死或局数据出错),其故障点隐蔽、难以定位。此类故障只能依靠经验丰富的维护人员翻查设备的错误日志进行逐步对比分析,整个处理过程难度较大,严重影响了故障处理的准确性和及时性。
      综上所述,及时准确定位WAP业务的故障原因并挖掘潜在问题是至关重要的。错误码是WAP请求出现错误的原因码,直观体现了错误出现的原因。但是,零散错误码无法体现WAP整体的运行情况,需要利用系统,对WAP网关错误码进行精细化分析管理。
      为解决上述问题,本文设计并实现了一套WAP网关错误码分析系统。该系统通过自动采集WAP业务中的错误码,分析对比错误码变化规律,采用IT手段对WAP潜在问题进行提前预判,派发故障预警工单,提醒维护人员及时处理问题。全自动的分析对比,极大地提升了故障处理的质量和效率,大幅度节省人力,提升维护工作质量。
2.技术方案
2.1 设计原理

      WAP业务系统组网结构[2]复杂,其系统框架如下图所示。

图1 WAP业务系统框架图

      从图1可以看出,WAP业务涉及多种设备协调工作,其业务的正常运行依赖于每一个设备、每一条链路的正常运行,若仅依靠传统手段手工排障,将无法满足对WAP系统的维护要求。图中,WAP集群服务器中的WAP 网关设备为核心设备,集中处理所有用户的应用请求,并记录请求及其处理状态码。状态码记录了处理是否成功,若失败,错误原因是什么,即对应的错误码。下图2为WAP业务流程示意图。

图2 WAP业务流程示意图
      本文所述基于WAP网关设备及其错误码的分析系统,可以将故障原因分为三类:
(1)WAP网关本身的问题;
(2)系统内,WAP网关与其他设备之间的交互问题;
(3)SP服务提供存在问题。
      错误码可以在每次WAP请求的话单中,记录这三类错误。其中,若为第二、第三类问题,则必然会导致WAP网关集群中所有网关都出现错误,引起业务瘫痪,问题定位需及时,实时性要求高;若为网关本身的问题,则因为网关是集群,业务分摊到各网关上,因此,一台网关出现问题,不会出现大规模业务瘫痪,只是用户感知稍差,因为成功率会降低,问题定位时实时性要求没有前一种情况高,但需要全面分析每个网关的处理数据。
      基于以上,考虑到发现故障的及时性和全面性,系统利用两种方式分析WAP业务系统情况:
(1)采样分析:该种方式主要监控以上第二、第三类问题,避免业务瘫痪。该种实现方式为:直接从制定的WAP网关设备采集实时处理数据,分析业务系统是否存在问题,并向业务人员传递警示。该种方式时效性强。
(2)全面分析:该种方式主要监控WAP网关集群中的网关设备,是否存在问题设备。该种实现方式为:从日志服务器获取WAP业务系统所有的话单,按WAP网关分析每台网关的业务数据,以判断各网关设备是否正常运行,并向业务人员传递警示。因全部业务处理数据汇聚有时延,因此该种方式分析时效性较弱,处理数据业务量大而全面。
2.2 系统设计

      基于上述应用背景和设计要求与原理,本文所述系统框架如下图所示:

图3 WAP网关错误码分析系统架构图
      从图3可以看出,本文所述系统由四部分组成:业务数据采集模块(监测数据采集),监测数据分析模块,故障通知平台和故障处理平台。各模块的相互关系和工作流程如下所述:
(1)首先,业务数据采集模块采集位于单个网关上的实时话单数据以及位于话单服务器上的全量话单数据,作为分析基础;
(2)其次,监测数据分析模块分别针对实时的数据和全量数据进行分析,完成分析后,将异常情况整合,产生告警信息,并前转;
(3)再次,故障通知平台通过短信平台、邮箱服务器等手段,通知到相关人员;
(4)最后,相关人员或者日常监控人员在故障处理平台看到故障的详情,并进行相关的操作处理。
      以下为各模块/平台的详细说明:
2.2.1业务数据采集模块
      业务数据采集模块分两部分采集:与WAP网关直接交互的数据采集和与话单服务器交互的数据采集。两种采集方式都是用FTP共享文件的方式采集,由系统获取WAP网关设备或者日志服务器上的数据文件。不同之处在于:
(1)WAP网关直连采集:采集到的是实时处理数据,即:短期内WAP处理的数据。该数据的数据量不定。因此,在开始分析之前,需要首先判断数据有效性,即数据量是否有足够代表性。
(2)全量数据采集:因为需要分析所有WAP网关业务后才能汇聚到日志服务器上,可能存在时延。因此,数据采集时,采集模块需要适应该时延,以获取全量数据,做较为精准的分析。
2.2.2监测数据分析模块
      监测目的可以概况为:一方面要实时发现可能发生大规模业务瘫痪的支持系统/SP响应问题;另一方面要监控每个网关的运行情况。监测数据分析需围绕监测目的,综合多种手段进行。因此,进行监测时,需要分不同维度进行分析。
一、数据分析维度:
(1)针对实时数据,主要用于发现可能存在于业务系统内其他支撑设备的问题以及SP的响应问题。
受限于采样数据的不确定性,分析时,主要以错误码标识的错误类型为维度进行错误码类型占比分析。错误码类型包括数据库错误、SP响应错误等。从这些错误码类型的占比情况分析中,可分析WAP系统内相关设备运行情况,或者SP的响应情况。
(2)针对全量数据,主要用于监控单个网关的运行情况,也可以分析SP响应情况及系统内其他设备的支撑情况。
基于为全量数据,按照每个WAP网关进行分析。分析维度包括:该WAP网关单位时间内处理的业务量,该WAP网关单位时间内各种错误码类型发生的占比情况,该WAP网关单位时间内由于SP问题引起的情况中各SP的详细情况即SP响应错误占比。通过这些情况分析,可以确定WAP网关是否正常工作,相关设备是否正常工作,各SP是否正常工作。
二、数据分析手段:
(1)阈值分析:
      阈值分析指专业人员根据日常维护经验,为分析数据设置阈值,若分析数据不在阈值范围内,则该数据为问题数据,需要发出告警,通知相关人员。支持阈值分析的数据包括:实时数据分析中,各错误码类型的占比;全量数据分析中,针对每个WAP网关,错误码类型的占比;业务量总量,各SP响应错误占比。
(2)突变分析:
      突变指本次数据较前次数据有较大波动,包括较大幅度的增加,较大幅度的减少。支持突变分析的数据包括:实时数据分析中,各错误码类型的占比;全量数据分析中,针对每个WAP网关,错误码类型的占比;业务量总量,各SP响应错误占比。
(3)基线分析:
      基线分析指排除人工烦扰,系统依据之前30天的历史数据,预估当天每个时段可能的数据量,并与当天实时数据进行比较。若波动幅度较大,则为非正常情况。该分析手段因依赖于历史数据,因此,对数据要求较大,只适用于全量数据分析。在本系统中,该分析手段应用于业务量分析。

      下图4为全量数据分析后,呈现的分析结果示例。在截图所在时间段内,按照网关进行分析,深色内容为通过阈值、突变、基线分析后,存在问题的数据。

图4 全量数据分析结果示例图
2.2.3故障通知平台
      故障通知平台,可配置接受通知的业务人员名单,将以上模块分析所得的异常结果,通过邮件和短信的方式,向相关人员发送封装信息,以便维护人员及时处理系统问题。
2.2.4故障处理平台
      故障处理平台,提供给用户集中查看故障告警、标识告警处理状态等情况的平台。用于了解整体故障情况,安排处理,并追踪故障处理整个流程。
2.3 系统特点
      本文所述WAP网关错误码分析系统具有如下特点:
(1)分析对象集中,问题发现范围全面
本系统在监控分析过程中,集中分析系统内WAP话单,分析对象单一集中。分析过程中,利用其中错误码的类型、含义,可覆盖该业务系统中各种问题,排障分析结果详细、全面。
(2)时效性与覆盖性兼顾
通常,系统的时效性和覆盖性是一对相互矛盾的特性。本系统通过分析WAP系统的问题特点,将高时效性问题和高覆盖性问题区分,并在系统问题分析过程中,按照特性和获取信息进行分析。使得系统及时发现时效性要求高的问题,并能逐个发现存在问题的WAP网关设备的问题。
3.应用效果
      本文所述系统已成功应用于辽宁移动两套WAP网关的错误码分析与监控工作,取得了明显的应用效果。
3.1 提升WAP业务质量健康度
      将本文所述系统投入使用前后情况进行对比,端到端业务成功率由94.8%提升到96.1%,首页时延由3.3秒降低到3.1秒,客户投诉大幅降低,减轻客服和运维人员的工作压力,有效的保障了WAP业务健康、稳定和可持续的发展。

      图5给出了本文所述系统投入使用前后,端到端业务成功率以及首页时延的对比情况:

图5 端到端业务成功率及首页时延对比图
3.2 加强隐性故障主动发现能力
      之前,维护人员对于无故障告警的WAP问题基本没有主动发现的能力,致使问题劣化升级、产生故障告警,月均发生WAP告警56个。本文所述系统投入使用后,月均发现错误码异常事件20起,月均WAP告警量减少到10个,显著提高了WAP设备的健壮性。
3.3 缩短故障处理周期
      本文所述系统通过自动采集WAP业务中的错误码,定时分析、对比错误码变化规律,可以快速定位故障原因,找到解决办法。全自动的过程取代了之前维护人员原始的手工故障排查方式,显著缩短故障处理周期,大幅提高故障处理效率。
3.4 节省人力成本
      本文所述系统将维护人员从原始的手工故障排查方式中解脱出来,无需人工登录设备,翻查设备的错误日志进行对比分析进行故障定位,节省了大量人力成本。
      下面对本文所述系统所节省的人力成本进行估算:
      辽宁公司2套WAP网关,平均每月需要人工干预的告警、故障,现通过系统辅助分析、定位缩短了处理WAP故障问题的时长,一个月平均共节约人力成本120小时,每年平均节省人力成本60(人天)。            
3.5 社会效益
      WAP网关错误码分析系统丰富了维护人员定位问题的手段,提供了对WAP业务深层次分析能力 ,减少了故障定位的时间,加强了故障主动发现的能力,能够有效地减小或者避免WAP隐性故障对用户使用业务的影响,加快了用户投诉定位、解决的时间,提高了用户感知,树立良好的移动运营商品牌形象。
4.结束语
      本文设计并实现了一套WAP网关错误码分析系统,该系统通过自动采集WAP业务中的错误码,定时分析、对比错误码变化规律,派发故障预警工单,提醒维护人员及时处理问题。WAP网关错误码分析系统具有很高的通用性,提高了WAP业务故障的预发现、快速处理能力,及时准确地掌握网络的运行状态,发现可能导致业务故障的隐患,同时对故障、错误进行定位分析,事后追查取证,满足审计要求。WAP错误码分析系统投入使用后,使得维护人员从繁重的故障定位工作中解脱出来,降低了对维护人员业务经验、能力的要求,节省了人工成本。在今后的工作中,我们将把该系统继续推广应用到更多的WAP应用中去,与此同时,系统的进一步完善和优化将是我们今后研究工作的重要方向。
参考文献:
1 刘洁.WAP业务技术应用及展望[J]. 通信与信息技术, 2009(01).
2 钟磊,张健. WAP网关在移动网络业务中的应用分析[J]. 广西通信技术, 2012(01).
网站首页 关于我们免责声明联系我们
版权所有:辽宁省通信学会  备案号:辽ICP备11005629
联系电话:024-22517766  地址:沈阳市沈河区北站路72号


网站建设:恒昊互联网络