您的位置: 乌兰察布信息港 > 游戏

朗讯CDMA交换机应急处理案例分析0

发布时间:2019-04-29 18:34:17

在运营商竞争日趋激烈的今天,各级络维护部门对移动通信应急通信保障工作的重要性已达成共识。维护人员在应急通信处理中应遵循“先抢通、后修复”的原则,以减少通信阻断的影响面和降低阻断历时。

由于移动出现通信障碍的原因不尽相同,因此对于不同情况应采取不同的应急通信保障的思路与方法。引起移动通信障碍的原因可分为络因素和外部因素两大类。络因素可分为大话务量冲击、其他元故障、设备核心软/硬件故障及升级割接失败4种;外部因素可分为动力环境、人为操作失误和自然灾害3种。

本文以朗讯CDMA交换机为例,根据不同原因比较全面地介绍了移动交换设备应急通信保障的思路与方法,其中对于由人为操作失误和自然灾害引起的通信障碍处理,本文不再详细说明。

1 络因素引起的应急保障

1.1大话务量冲击

大话务量的冲击会导致络负荷特别是交换机负荷在短时间内攀升到极限水平,从而引起宕机。某朗讯CDMA交换机局房维护人员在大话务量冲击情况下开展的移动交换设备的应急通信保障工作如下。

1.1.1准备工作

准备工作主要包括:提前完成系统各项安全、配置、负荷等方面的检查;做好交换系统各主要部分(ECP、5EDCS-2000、ACCULINK、AP、OMP)以及SHLR的备份工作,对于ECP和5EDCS -2000,由于从备份带启动大约需要4 h,而从备份硬盘启动多只需1 h,所以除去备份带外,应分别再做一套备份硬盘,以防止系统万一出现异常情况并自动重启失败时能够快速启动并恢复系统;熟悉基站归属与分布数据情况,排除基站硬件故障,熟悉各种基站操作命令;计费文件备份等北京优化推广公司

1.1.2应急处理措施

为了降低交换机系统负荷,首先关闭系统上运行的一切不必要的追踪和监控软件,如tcmon、Uxcptrace等;其次,根据络负荷情况,逐步实施应急处理措施。

(1)关闭系统例测功能。维护人员在话务高峰到来之前品牌策划公司
,禁止该局5EDCS、ECP的例测功能。

(2)定时运行CDN负荷监测工具systat,严密监控系统的负荷情况。朗讯CDMA交换机CDN数量为6个,查询CDN的数量与系统负荷关系表可知,该局CDN负荷的门限值为71%,维护人员需要实时运行systat工具监测CDN负荷变化情况。在观察到CDN负荷已经升高至70%时,可采取措施对系统负荷进行人为干预。

(3)重点保障。为了防止朗讯CDMA交换系统过载导致宕机,必须禁止该局市区40个话务量较高的基站的呼叫处理。

在实际的操作中,使用批处理命令禁止基站话务。在该局OMP系统可执行的用户目录中一个TXT文件,将事先确定的一旦系统出现过载现象后立即禁止话务处理能力的基站号列入此文件中,再将此文件改为可执行文件。当需要关闭该批基站时,在OMPShell下运行该文件即可。

关闭话务量较高的基站后,该局交换机CDN负荷一直保持在70%以下。待该局交换机CDN负荷降低至52%后,采用手工方式将关闭的基站逐步放开,并实时观察CDN负荷。当开放基站数达到30个时,该局交换机CDN负荷又上升至69%,同时,SM4中由于系统负荷较高引起两个PHA板退出服务。停止开放基站并手动关闭5个SM4中话务量较高的基站,紧急更换故障单板。随着络话务量的逐步降低,交换机负荷也逐步降低。待该局CDN负荷降至40%以下,手工放开关闭的15个基站,CDN负荷即稳定在40%左右。第二天7:30,维护人员开放了该局5EDCS、ECP的例测功能。系统稳定运行,应急通信保障成功。

通过上述描述和分析可以看出,由于大话务量对络的冲击往往是可以预测的,因此要求维护人员一定要做好准备工作,同时根据络负荷情况灵活应对,以重点保障为原则,确保核心交换机安全稳定运行。

1.2其他元故障

某日,朗讯CDMA交换机A至关口局因光缆中断导致A局与GSM交换机B通信全阻。在判断清楚障碍是非交换机问题引起后,维护人员决定利用T局进行话务迂回以保障通信畅通。A局与B局的正常话务路由为:

A关口局B

修改后的话务路由为:

AT局关口局B

对朗讯CDMA交换机A进行出局话务路由修改的方法:在ECP的TGL表中设置T局中继群为迂回路由,更改该中继对应的sublist参数,使其成为路由。

在进行上述操作时,维护人员需要非常熟悉通信组结构,对路由进行合理迂回,避免出现“话务乒乓”现象。同时,要注意非正常路由所涉及的转接交换机之间的号码分析数据应保持一致。

此类障碍的应急处理需要注意两个方面的问题:一是话务和信令路由的合理迂回;二是注意防止某局向话务或信令负荷过载引起全局宕机。

1.3系统核心软/硬件故障

(1)故障现象

某日,朗讯CDMA交换机突然出现多个CDN处于过载状态,并造成部分呼叫处理困难。系统显示有5个CDN告警显示过载,其中一个反复重启。

(2)处理步骤

维护人员按照先抢通的原则,初步判断是硬件故障后,决定立即更换反复重启的CDN。更换CDN工作历时15min,系统告警消除。但经拨打测试,发现部分用户被叫依然存在问题。又经过详细硬件检查及消息跟踪,确认被叫问题是由于MUFDB数据库遭到破坏引起的。立即修复MUFDB用户数据库后,拨打测试正常,故障恢复。

(3)问题分析

本次故障中的CDN板被送往朗讯实验室进行分析,发现其内存硬件损坏是造成本次故障的根本原因。系统在监测到该CDN数据不完整后,试图通过重启恢复,但因该CDN内存硬件有问题,造成重启后数据依然存在问题,导致系统反复重启该CDN。

那为什么更换CDN硬件后,故障仍未恢复呢?在朗讯公司ECP系统所有的CDN中,有一个CDN承担管理呼叫处理的ACDN功能。如果该CDN发生故障,系统将自动把ACDN功能切换到其他CDN上。问题发生前,有故障的CDN承担ACDN功能;问题发生时,其内存问题导致MUFDB数据库被部分破坏,系统将ACDN功能转移到其他CDN时,该数据库也被复制到新的ACDN上,这就造成了CDN更换完毕后,部分被叫仍存在问题。

此外,虽然在工程设计上朗讯系统CDN已考虑了N+1保护机制,但由于该局业务发展较快,问题发生前就已经出现话务量过高(时81%)却未来得及进行扩容的情况,因此问题发生时,一个CDN退出服务造成了其他CDN出现过载。

由上可见,系统核心硬件出现故障时,首要任务是恢复通信,至于故障根本原因的查找,可放在事后进行;同时,应特别注意核心硬件的负载问题,及时提出合理的扩容建议。

1.4升级割接失败

某日,在对某朗讯CDMA交换机进行升级至25版的操作中,出现了升级失败的异常情况。

(1)升级步骤及故障现象

0:30,工程师对系统进行BOOT操作。01:05,CU0和CU1均工作正常,IMS-RING上的所有节点均正常。经过基本功能拨测后,01:18对TMP25-DD06版本进行VFY操作,该操作在01:28完成。随即开始对该SU进行APPLY操作,但是在01:28的时候,MHD5硬盘突然掉电,导致整个RETROFIT25版升级失败。

在确认该局RETROFIT25升级失败后,使用预先制定好的倒回方案,将系统从MHD0、2、4侧恢复到24版。

根据朗讯CDMA交换系统操作手册,必须先将AP退出25版后才可以使用MHD0、2、4侧将ECP退出24版。04:28在AP退出25版之后,使用MHD0、2、4侧对系统再次进行了BOOT操作。05:06系统稳定运行在24版。随后安排进行路测和计费验证,确定系统工作正常。

(2)原因分析

升级前一天,维护工程师按照时间安排将25版的软件成功录入到交换系统的MHD1、3、5硬盘中,这三个硬盘状态为OFFLINE,MHD0、2、4状态为ACT,此时系统开始处于单边工作状态。

升级当天0:30对系统进行BOOT之后,MHD1、3、5为ACT状态,MHD0、2、4为OFFLINE状态。由于系统仍然处在单边工作状态,此时MHD1、3、5侧任何一个硬盘出现故障都会造成升级失败。在01:28也就是系统BOOT成功58min之后,MHD5自动掉电直接导致升级失败。

此后重新插入MHD5并观察该电路板的工作状态,发现系统提示该板在不断自动上电、下电,工作状态非常不稳定,判断为MHD5板件故障。更换硬件UN375F电路板之后,MHD5工作正常。从此得出结论,MHD5的异常掉电是导致升级失败的原因。

交换机系统的升级割接是通信调整中比较危险的操作,但是其失败后的应急通信保障完全可以纳入升级割接的方案中,出现紧急情况后,应该严格按照方案的要求,采取相应的应急措施进行处理。

2 动力环境因素引起的应急保障

动力环境因素是指交换机房或者交换机重要板件突然掉电引起通信故障。对于朗讯CDMA交换机来说,如果供电恢复正常,系统原则上会自动初始化并恢复正常工作状态。但是,也有特殊情况需要维护人员人工完成系统的紧急恢复。

某日,某朗讯CDMA交换机因机房动力系统意外掉电引起交换机自动重启,为了能够在短的时间内以快的方式使ECP系统恢复正常,维护人员将之前例行备份的一套硬盘取代ECP一侧硬盘,然后用CU1从一侧硬盘人工进行系统重启。

人工启动过程在现运行的移动交换设备维护工作中非常罕见,以下详细列出人工启动所进行的步骤:

(1)进入ECP的MCRT终端的EAI页面,依次选择42、r、50、y;

(2)等待60s;

(3)进入MCRTSDP的102页,如果CU1不是主用CU,则用数字命令400将CU1切成主用CU;

(4)回到ECP的MCRT终端的EAI页面,依次选择14、31、33、11、y、20、42、s、54、y。

同时,维护人员使用例行备份的5EDCS-2000备份硬盘启动5EDCS系统。

(1)进入EAI页面。

(2)键入菜单命令14,选择10后,选择y,再选择20(表示选择从CU0/MHD0重启)。

(3)键入数字命令54,选择y(即选择从硬盘启动)。

待AM启动完毕后,会显示MCC100页面,在MCC页面可看到CU变绿。

(4)进入MCC页面输入1800,n(n为SM的编号);之后键入命令923,选择y进行SM的重启。

(5)重复过程(4),对所有的SM进行重启。

在进行上述交换机重启步骤之前,必须确认动力环境系统已恢复正常。为了快速恢复朗讯交换机系统,日常维护时应及时更新脱机备份硬盘,从而避免从磁带启动带来的延误。

3 小结

对于移动通信应急保障工作,除各级运维部门需要建立完善的应急通信保障制度和应急通信处理预案外,具体的设备维护人员必须熟悉络中各种设备的应急处理步骤,并具备在全程全的高度进行应急处理的能力。

总之,应急通信处理是络维护中一个非常重要的方面,维护人员应根据不同情况采取相应的措施,尽量减少因络问题带来的损失,才能为运营工作提供良好的络支撑。

猜你会喜欢的
猜你会喜欢的