摘要:排障突出根源告警前文提到,告警数量多的根源在于层次多、关联多,底层故障衍生出大量高层告警。如果我们能够突出根源告警,忽略或者抑制衍生告警,就不需要针对无效告警派单处理,从而减少工作量。从华为的网上问题库中统计发现,IP网络的故障根源大部分来自于硬件、链路的劣化。尤其是网络中的链路,如光纤、微波等,容易受到
排障
突出根源告警
前文提到,告警数量多的根源在于层次多、关联多,底层故障衍生出大量高层告警。如果我们能够突出根源告警,忽略或者抑制衍生告警,就不需要针对无效告警派单处理,从而减少工作量。
从华为的网上问题库中统计发现,IP网络的故障根源大部分来自于硬件、链路的劣化。尤其是网络中的链路,如光纤、微波等,容易受到环境影响,从而导致接口闪断。接口反复UP/DOWN,将引发大量接口的告警,同时又引起IGP协议收敛,引发IGP反复告警,进而引发LSP的反复告警。即链路的告警将衍生出大量的协议告警。
针对以上情况,华为提出两种告警优化的思路:第一,在告警监控中,将告警归类为环境、硬件、软件、接口、链路管道、协议和业务等几个类别,环境、硬件类告警的处理优先级大于协议、业务类告警。高级别告警处理恢复后,其衍生的低级别协议告警会自动恢复。这种方法简单实用,可短期见效。第二,建设告警相关性系统,按协议、业务运行关系定义告警的衍生关系。在告警监控系统上,将衍生告警挂接在根源告警上显示,管理员直接处理根源告警,这种方法可以比较完善地解决告警多的问题,但建设困难且周期较长。
解决“无告警故障”的关键在于预期和现状的对比,我们仍从控制平面和转发平面分别阐述。
路径预期和检测
尽管IP的控制平面采用了动态协议,但其运行的基础仍然是物理链路和SPF(Shortest Path First)算法,链路规划越简单,路径预期就越清晰。如在大部分的中小型城域网设计中,网络层次少,层次之间采用主备双链路进行保护,路径非主即备。对于这种网络,只要维护好网络拓扑图,就可以满足故障处理的需要。
对于大型、复杂的网络,管理员通过物理链路的分布,已无法快速识别业务路径。在这种情况下,需要采用仿真计算的方式,将网络上的配置、拓扑等集中到仿真软件中,计算出业务的预期路径。
预期建立之后,采用OSS软件定期获取路径的现状并与预期对比的方式,若不一致即发送告警,并提示管理员网络发生了故障。中小型、简单网络可以采用TraceRt获取路径。大型、复杂网络一般都会存在ECMP(Equal-Cost MultiPath等价多路径),此类情况一般可以综合TraceRt、转发表查询等方式来详细判断业务流的路径。另一种方式是通过分析IGP的泛洪报文,掌握路径建立的详细过程,根据路由算法和配置来掌握转发路径。
通信工程师备考资料免费领取
去领取