故障处理流程
本章描述故障处理的流程和处理步骤。
∙ 2.1 故障处理总流程
本节描述故障处理的基本流程。
∙ 2.2 收集故障信息
本节描述收集故障信息的注意事项及途径、故障信息的种类。
∙ 2.3 判定故障
收集故障信息后,需要对故障现象作出判断,并确定故障的范围和分类。
∙ 2.4 定位故障原因
定位故障原因是通过一定的方法或手段分析、比较各种可能的故障原因,不断排除非可能因素,最终确定引发故障的具体原因。
∙ 2.5 排除故障
本节描述故障排除的方法和后续处理。
2.1 故障处理总流程
本节描述故障处理的基本流程。
故障处理总流程如图2-1所示。
图2-1 故障处理总流程图
2.2 收集故障信息
本节描述收集故障信息的注意事项及途径、故障信息的种类。
收集故障信息的途径
处理故障前,需要通过相关途径收集以下故障信息:
∙ 故障的现象。
∙ 故障发生的时间、地点、频率。
∙ 故障的范围、影响。
∙ 故障发生前设备运行状况。
∙ 故障发生前对设备进行了哪些操作、操作的结果是什么。
∙ 故障发生时设备是否有告警、告警的相关/伴随告警是什么。
∙ 故障发生时是否有单板指示灯异常。
∙ 故障发生后采取了什么措施、结果是什么。
收集故障信息可以通过以下途径:
∙ 询问申告故障的用户/客户中心工作人员,了解具体的故障现象、故障发生时间、地点、频率。
∙ 询问设备操作维护人员了解设备日常运行状况、故障现象、故障发生前的操作、故障发生后采取的措施及效果。
∙ 观察单板指示灯,观察LMT上的告警管理系统以了解设备软、硬件运行状况。
∙ 通过业务演示、性能测量、接口信令跟踪等方式了解故障发生的范围和影响。
说明:
应具有收集相关信息的强烈意识,在遇到故障特别是重大故障时,一定要先了解清楚相关情况后再决定下一步的工作,切忌盲目处理。
故障信息的种类
∙ 告警信息
告警信息是指BSS告警系统输出的信息,通常以声音、灯光、LED(Light EmittingDiode)显示、屏幕输出等形式提供给维护人员,具有简单明了的特点。查看告警信息是故障分析的主要手段之一。
告警信息主要包括故障或异常现象的具体描述、故障发生的原因、故障修复建议等。告警信息涉及硬件、链路、中继、CPU负荷等BSS的各个方面,信息量大且全,是进行故障分析和定位的重要依据之一。
告警信息主要用于查找故障的具体部位或原因。由于BSS告警系统输出的告警信息丰富、全面,因此经常可以用来直接定位故障的原因,或配合其他方法共同定位故障。
说明:
告警系统的使用说明请参见《BSC6900 GSM LMT用户指南》,每条告警处理的详细操作说明请参见《BSC6900 GSM告警参考》。
∙ 指示灯状态
指示灯反映相应单板的工作状况以及电路、链路、光路、节点等的工作状态,是进行故障分析和定位的重要依据之一。
指示灯状态主要用于快速查找大致的故障部位或原因,为下一步的处理提供思路。由于指示灯所包含的信息量相对有限,因此经常与告警信息配合使用。以SCUa单板为例,SCUa单板指示灯如表2-1所示。
表2-1 SCUa单板指示灯说明
指示灯名称 | 颜色 | 状态 | 含义 |
RUN | 绿色 | 1s亮,1s灭 | 单板正常运行。 |
0.125s亮,0.125s灭 | 单板处于加载状态。 | ||
常亮 | 有电源输入,但单板存在故障。 | ||
常灭 | 无电源输入或单板处于故障状态。 | ||
ALM | 红色 | 常灭 | 无告警。 |
常亮或闪烁 | 告警状态,表明在运行中存在故障。 | ||
ACT | 绿色 | 常亮 | 单板处于主用状态。 |
常灭 | 单板处于备用状态。 | ||
LINK(网口处) | 绿色 | 常亮 | 链路处于连接状态。 |
常灭 | 链路处于断开状态。 | ||
ACT(网口处) | 绿色 | 常灭 | 没有数据传送。 |
闪烁 | 有数据传送。 | ||
说明:
各单板指示灯的状态说明,请参见《BSC6900 GSM硬件描述》。维护人员平时应加强对单板指示灯含义的学习,以提高故障情况下的快速反应能力。
∙ 业务拨测
业务拨测常用来判断BSS业务是否正常,并通过拨测收集故障详细信息。包括:终端信令、网络侧信令、详细故障现象描述。
∙ 仪器测量
运用仪器、仪表进行故障分析与定位,以直观、量化的数据直接反映故障的根因,是BSS 故障处理常用的技术手段,在电源测试、信令分析、波形分析、误码检测等方面有着广泛的应用。某地掉话率较高,故障处理过程如下:
o 用信令分析仪截取一些掉话的信令。
o 分析该信令,发现掉话原因主要由于TA(Timing Advance)过大所导致,TA值接近63。
o 更改数据配置,将小区半径缩小。
o 修改数据配置后,掉话率降低。
说明:
关于仪器的使用方法,维护人员可参考相关仪器的使用说明书。
∙ 话务统计
话务统计是分析业务类故障(掉话类、切换类等)有力工具,能够及时地找出引起业务类故障的主要因素并加以有效地防范。
话务统计分析经常与信令跟踪、信令分析等配合使用,在查找掉话率过高、切换成功率低、呼叫异常等业务类故障方面有着重要的作用。
说明:
话务统计的使用说明请参见《BSC6900 GSM LMT用户指南》,每个指标的含义请参见《BSC6900 GSM 性能指标参考》。
∙ 消息跟踪
消息跟踪在分析用户呼叫接续、局间信令配合等过程的失败原因方面有着重要的应用,利用跟踪的结果,经常可以直接得到呼叫失败的原因,为后续分析提供宝贵的思路。
说明:
消息跟踪的使用说明请参见《BSC6900 GSM LMT用户指南》。
2.3 判定故障
收集故障信息后,需要对故障现象作出判断,并确定故障的范围和分类。
排除故障之前,维护人员根据收集的故障详细信息,对故障范围和类型进行判断。如果无从下手,请联系华为客户服务中心。
说明:
当发生严重故障、事故时,请联系华为客户服务中心。
2.3.1 故障范围分类
本节描述GBSS 故障处理指南处理的故障范围。
∙ CS话音类故障
∙ CS业务类故障
o 切换类故障
o 掉话类故障
o 接入类故障
∙ PS业务类故障
o PS指标类故障
o PS信道类故障
o 小区无PS业务类故障
∙ 设备类故障
o IP传输类故障
o 干扰类故障
o 主分集接收通道故障
o 无话务类故障
说明:
根据不同的故障现象进行故障判断,确定故障类别。各故障类别之间并不是割裂的,例如掉话类故障的原因可能是切换不及时导致的。本文在叙述此类情况时,直接链接到切换类故障的相应处理中,在掉话类故障处理中不再予以说明。
2.3.2 界定故障范围的方法
本节描述界定故障范围的方法。
∙ 观察法
观察法是我们发现、界定设备故障范围的常用方法。观察的内容主要有设备告警、指示灯显示、LMT面板状态。
∙ TOP最值分析法
该方法主要用于性能指标劣化场景的故障范围界定。通过小区、载频对象指标的最值排序,确认劣化的性能指标是全局问题还是局部问题,从而做到抓大放小,最终解决问题。 具体案例请参见4 切换类故障。
∙ 环回法
环回法是界定故障网元范围的重要方法;环回法适用于传输类、链路类、语音类等;环回从实现分硬件环回、软件环回两种。具体案例请参见3.1.2 外部语音环回。
另外,通过环回判断传输设备、传输信道、业务状况、信令配合等情况是否正常,以确定相关硬件设备的状况、软件参数设置是否正常。环回是定位传输问题、中继参数设置是否正确等的最常用方法之一。在新建站点和中继扩容过程中,BSS中继自环也经常用于判断中继参数设置是否正确、信令链路数据设置是否正确。
说明:
在定位与传输相关的故障时,环回是一种常用的方法。
∙ 排除法
在软件方面,排除法顾名思义就是把某一可疑功能、特性关闭掉,排除该功能特性对问题产生的影响。如果关闭了该功能(比如:射频调频),问题解决,那就是该功能引起的问题,否则该问题与此功能无关。
在硬件方面,如果怀疑单板方面故障,则可以直接替换单板排除硬件问题。
比如:我们在处理小区干扰问题时,如果怀疑小区干扰为同邻频干扰,则可以在条件允许情况下,更新小区频点为干净频点(比如:E频段),看干扰问题是否消失。
∙ 找规律法
现网的问题多种多样,涉及因素广。对于此类问题,需要首要找出现象背后的规律,从而缩小问题范围,比如关注如下几点:
1. 是否同一单板存在问题。
2. 是否是集中在某一块DSP上。
3. 是否同一传输通道存在问题。
4. 是否同一载波存在问题。
5. 是否某类手机存在问题。
6. 是否某类信道存在问题。
7. 是否均开启了某类特性,比如:Flex TSC、下行功控、主B降功耗等。
8. 凡是出现了告警,要观察告警是单个还是多个类似的告警。
比如:小区退服告警,我们需要关注此类退服是单小区退服,还是多个小区退服。
9. 如果是单个小区退服且本站点下的其它小区没有退服,则可能是该小区载频、配置存在问题;
10. 如果是多小区退服,需要判断这些小区有什么规律,处于同一个基站还是多站点。
▪ 若处于同一个基站,则查看是否有传输类告警(LAPD断链告警、OML故障告警、E1告警等)。如果有,则可能是站点停电或者传输故障;
▪ 如果多站点小区退服,则需要确认是否属于同一个片区(可能片区停电或者挖断光纤)。
o 对比/互换
对比是指将故障的部件或现象与正常的部件或现象进行比较分析,查出不同点,找出问 题的所在。互换是指将处于正常状态的部件与可能故障的部件对调,比较对调前后二者运行状况的变化,以此判断故障的范围或部位。
11. 对比一般适用于故障范围单一的场合。
12. 互换一般适用于故障范围复杂的场合,常见的互换有如下几种:
▪ 载频互换、单板互换
▪ 传输互换
▪ 天馈互换
▪ 频点互换
比如:同站的一个小区干扰很大,而别的小区正常。在排查各种连线都无法解决的情况下,可对调同站正常小区与异常小区的天馈系统,看干扰是否随天馈走,如果是则问题出在天馈系统。参见12.4 互调干扰问题处理中的典型案例。
2.4 定位故障原因
定位故障原因是通过一定的方法或手段分析、比较各种可能的故障原因,不断排除非可能因素,最终确定引发故障的具体原因。
定位故障原因主要分为以下两类:
∙ 定位业务类故障
o 对于语音类故障和分组业务类故障,首先依次检查Abis、Um等接口,逐段定位,根据接口现象判断是否为BSS故障。如果是BSS内部问题,再继续定位。
o 对于切换类和接入类等故障,启动相关性能统计、信令跟踪,对照协议流程,判断故障点,逐个排查定位。
∙ 定位功能子系统类故障
时钟类、接口链路类和设备类的故障种类虽多,但是故障范围较窄,一般伴随相关的告警提示。因此该类故障的原因相对简单,同时系统会有单板指示灯异常、告警和错误提示等信息。
2.5 排除故障
本节描述故障排除的方法和后续处理。
2.5.1 概述
排除故障是指采取适当的措施或步骤清除故障、恢复系统的过程,如检修线路、更换单板、修改配置数据、倒换单板、复位单板等。
排除故障应注意以下几点:
∙ 根据不同的故障按照不同的操作规程操作,排除故障。
∙ 排除故障之后要进行检测,以确保故障真正被排除。
∙ 排除故障后应回顾故障处理全过程,记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。
说明:
当发生严重故障、事故时,请联系华为客户服务中心。
2.5.2 排除故障的方法
本节描述故障排除的方法。
∙ 隔离法
隔离法就是将单个故障点从正常运行的业务单元中屏蔽掉,避免故障单元对正常业务的影响。
比较常见的问题比如DPU单板上的DSP故障,而用户短时间不便于替换整个单板,则可执行MML命令INH DSP隔离该DSP芯片。请参见7.4 杂音故障处理中的典型案例。
∙ 倒换/复位法
倒换是将业务从主用设备上全部转移到备用设备上,对比倒换后系统的运行状况,以确定主用设备是否异常。复位是指对设备的部分或全部进行手动重启的操作,复位主要用于排除软件运行异常。
倒换/复位只能作为一种临时应急措施,请谨慎使用,原因如下:
o 相比其他方法而言,倒换/复位只能作为定位故障的一种辅助手段。
o 由于软件运行的随机性,倒换/复位后故障现象一般难以在短期内重现,从而容易掩盖故障的本质,给设备的安全、稳定运行带来隐患。
复位操作通常会导致系统业务的中断,甚至可能由于操作不慎而导致系统瘫痪,给BSS 的日常运营带来严重的负面影响。例如:A接口全断、部分中断场景,对于此类严重问题,立即恢复业务为第一要务,则可按照如下步骤排除、恢复问题:
o 排查A口传输(看BSC是否有传输告警)
o 复位A口对端MSC接口板
o 倒换相应A接口板
o 如果分离模式,倒换相应BM框和TC框的Ater接口板
o 倒换SS7号所在XPU单板
o 在BM框Ater接口板对应端口做本地环回,看MTP2是否可以正常收到自己发出的消息
∙ 替换法
在现网运维中,替换法也是一种常用方法。在确保故障常用排查手段无效情况下,可尝试问题单板、线缆、天馈等设备的替换。
说明:
o 替换法虽对技能要求不高,简单实用,但如果使用不当,会造成不必要的返修件。因此在替换时要坚守一个原则“单板替换后,如果故障现象仍不消失时,最好把原单板重新插回去,不要直接作为返修件维修”。
o 如果现网条件不允许,没有可替换的单板,则可以尝试单板的插拔(拔出后再插入)。
2.5.3 后续处理
本节描述故障解决后的处理方法。
∙ 排除故障后,通过查询设备状态、查看单板指示灯和告警等方法确认系统已正常运行,并进行拨测,观察话统数据,以确保业务正常。
∙ 若无法排除故障,故障定位处理人员需收集相关故障定位信息,然后请联系华为客户服务中心
本文来源:https://www.2haoxitong.net/k/doc/7b9f8847336c1eb91a375df4.html
文档为doc格式