一、问题描述
1.1 涉及产品和版本
CE12808版本为CE12800 V100R003C00SPC600 补丁V100R003SPH006 1.2组网情况(Networking)
CE12808作为机房核心设备,下联汇聚交换机汇聚交换机接入服务器集群.CE12808通过100GE链路与外网互通,作为出口。CE12808与外网路由器启EBGP,用于引入路由和发布路由。 1.3故障现象 服务器部分业务时断时通。 告警信息
Sequence : 609
AlarmId :0x95E2022 AlarmName :hwBoardResThresholdExceed
AlarmType :processing_error Severity :Major State :cleared
StartTime : 2015-06-2608:08:47
Description : The number of forwarding resourcesreaches the alarm threshold. (Slot = 7, Chassis = 1, Threshold = 90, Reason =2, Description : The number of IPv4 FIBs exceeded the warning threshold.)
ClearTime : 2015-06-2608:38:43
ClearType :verify_clear
ClearReason : The number of forwarding engineresources is less than the threshold. (Slot = 7, Chassis = 1, Threshold = 90,Reason = 2, Description: The number of IPv4 FIBs exceeded the warningthreshold.)
Sequence :608
AlarmId :0x95E2022 AlarmName :hwBoardResThresholdExceed
AlarmType :processing_error Severity :Major State :cleared
StartTime : 2015-06-2607:41:05
Description : The number of forwarding resourcesreaches the alarm threshold. (Slot = 7, Chassis = 1, Threshold = 100, Reason =57, Description : The number of Large Exactly Match database exceeded thespecification of the forwarding engine resources.)
ClearTime : 2015-06-2608:11:03
ClearType :verify_clear
ClearReason : The number of forwarding engineresources is less than the threshold. (Slot = 7, Chassis = 1, Threshold = 100,Reason = 57, Description: The number of Large Exactly Match database exceededthe specification of the forwarding
engine resources.) 二、故障分析处理根据客户反映的情况服务器业务时断时通:
a) 先查看内网汇聚交换机链路和设备健康状况是否正常。发现链路均正常,也无流量超标现象。设备CPU和内存等健康状况良好。
b) 再看核心交换机路由是否有震荡,对等体状态是否正常。查看发现设备BGP对等体状态正常,没有路由震荡迹象。
c) 然后查看设备告警信息。结合客户提供异常时间段,查看设备告警信息。发现异常告警。综合分析告警内容(告警内容详见2告警信息)和网络故障现象。推断IPv4 FIB表项数量超过了转发引擎资源的规格。导致部分路由信息时有时无。部分业务也因此时通时断。
d) 导致这种问题的原因很可能是IPv4路由表数量已到设备上限。根据推断先恢复客户业务。
恢复业务方法
1、减少EBGP接收的IPV4路由数量。通过路由策略实现。
1、IPv4地址前缀列表
ip ip-prefix Filter_TO_BJ_10GE index 10 deny 0.0.0.0 0 less-equal 32
2、以地址前缀列表为过滤条件控制EBGP接收路由的数量。
peer 183.136.167.9 ip-prefix Filter_TO_BJ_10GE import
3、添加静态路由引导流量出去。
ip route-static 0.0.0.0 0.0.0.0 183.136.167.9 preference 40
4、联系研发确认设备IPv4 FIB表项数量。研发回复:CE12808设备IPv4 FIB表项最大支撑100万条。但是设备默认只允许了52万条。此数值可根据客户需要调高。
5、与客户沟通,确认其实际需要的IPV4路由数量。与客户共同规划后将IPV4FIB表项增加至70万。 三、问题根因
CE12808设备IPv4 FIB表项最大支撑100万条。但是设备默认只允许了52万条。因此导致超过了转发引擎资源的路由被丢弃。 四、解决方案
实行命令system tcam template-name,创建外扩TCAM的资源模板并进入资源模板视图。最多可以创建32个资源模板(不包括系统缺省的资源模板)。 实行命令external tcam { acl | u4router | u6router | m4router | m6router }upper-limit,配置业务占用资源的规格。 //u4router为ipv4单播路由 缺省情况下,外扩TCAM资源模板未配置业务占用的资源规格。
实行命令quit,退出资源模板视图。
实行命令system tcam template-name slot { slot-id | all },将外扩TCAM资源模板绑定至单板。
说明:
• 外扩TCAM资源模板绑定至单板后,需要重启单板才能生效。
• 外扩TCAM资源模板绑定至单板后,模板不可以被修改或删除。 实行命令commit,提交配置。 实行命令quit,退出系统视图。 实行命令reset slot slot-id,重新启动单板,使配置的资源规格生效。
五、建议与总结
在工程师网络规划时除了要明确设备的能力是否符合网络规模需要。还要确认设备默认是否将功能参数以调至最优数值。免得事倍功半
|