唐山移动wlan系统应急预案2012816讲解学习.doc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 唐山 移动 wlan 系统 应急 预案 2012816 讲解 学习
- 资源描述:
-
此文档仅供收集于网络,如有侵权请联系网站删除 唐山移动WLAN系统 应急预案 中国移动通信集团河北有限公司唐山分公司 2012年8月07日 目 录 (一) 应急方案启动条件 1 (二) 应急方案执行原则 1 (三) 网络结构现状 2 (四) 重点关注的指标 5 (五) 故障时需要上报省公司的数据 6 (六) 破坏原因及破坏结果分析 6 (七) 预防保障措施 7 (八) 应急措施 7 (九) 告警处理 9 (十) 工作流程图 13 (十一) 应急资源配备(含备件) 13 (十二) 知晓范围 13 (十三) 相关人员联系表 14 只供学习与交流 (一) 应急方案启动条件 1. 大量WLAN用户投诉无法正常使用,启动应急预案。 2. 全网 WLAN 业务中断,启动应急预案。 3. 若 AC 功能模块出现异常,导致无法登录 AC 系统,无法采集网络数据影响到业务的使用 和省网管中心的监控,启动应急预案。 4. 主用AC硬件故障宕机,启动应急预案。 5. 主用AC与核心S9312的链路中断,启动应急预案。 6. 主用AC业务故障导致下挂所有站点业务无法使用,启动应急预案。 7. WLAN系统关键双机设备中的主机宕机(核心交换机双机、四层交换机双机、交换机双机、防火墙 双机等),业务中断,启动应急预案。 (二) 应急方案执行原则 1. 先抢通,再抢修,尽快恢复业务。以对业务系统的影响最小化为指导思想,力争业务不中断。 2. 排障过程要将业务影响情况及时上报领导和通知监控室,及时对地市通报。 3. 在网络设计上单台设备的故障是不引起业务的全阻断。在发现单台设备的故障时最主要是要 检查配对的设备是否能负荷故障设备所承载的业务。 4. 由于目前WLAN系统上并没有接入带外管理网络,所以在发现设备阻断故障时必须由本地维 护人员到达设备端登陆设备。检查设备运行情况、传输线路情况等,并做好对路由器端口、 路由等方面检查记录,确定故障点。为故障处理提供原始记录。 5. 当 WLAN 网络出现严重故障,根据故障现象准确定位故障点,汇聚层问题还是接入层问题。 汇聚层设备主要查看 AC 是否正常运行,AP 有没有获取到 IP 地址,AP 与 AC 是否已经 关联上,AC 是 否给 AP 下发模板,VLAN 号是否一致。S9312交换机是否正常运行,接 入层设备主要查看接入层交换机是否正常运行,所配置的 VLAN 号是否一致,是否有做透 传。以上执行原则需在公司的统一指挥下和其它部门一起解决。 (三) 网络结构现状 唐山WLAN 网络采用集中转发模式、AC认证、二层组网和三层组网并存,AC 转发用户数据流到 S9312 再到RADIUS做推送认证、,AC管理与配置 AP, AC作为用户 DHCP 服务器和认证点。 唐山本地WLAN网络核心交换机采用华为S9312、AC和AP采用福建三元达、武汉虹信和天津京信3个厂家设备,汇聚交换机和POE交换机采用中兴、烽火和锐捷厂家设备进行组网。业务承载传输方式采用PTN设备、SDH设备。下图为网络拓扑图 (四) 重点关注的指标 需要关注的内容有: 1、地址池利用率均值 ,粒度为每天,正常情况下地址池利用率不超过80%。 查看方法:登陆省内数据网管—报表分析—业务报表—WLAN本地报表—AC地址池利用率统计—查询; 2、AC性能,粒度每天,正常情况下CPU和内存利用率都在50%以内; 查看方法:登陆省内数据网管—设备报表—AC—查询; 3、由于AC原因导致认证失败率,粒度每天,按照集团公司和省公司要求CMCC和CMCC-EDU 认证成功率应保证在99.6以上。 查看方法:登陆省内数据网管—报表分析—业务报表WLAN本地报表—全省AC设备radius认证统计 / radius认证—查询; 4、无流量AP清单,粒度每天,正常情况不会产生,如果连续几天都为无流量,则需要察看AP是否 吊死; 查看方法:登陆省内数据网管—报表分析—业务报表WLAN本地报表—AP无流量清单—查询; 5、 离线AP清单,粒度每天,如果连续多天均为离线状态,需要上报省公司原因 查看方法:登陆省内数据网管 (五) 故障时需要上报省公司的数据 设备出现故障时,没有数据需要手工上报省公司。 (六) 破坏原因及破坏结果分析 从统计分析的结果看来,在WLAN 系统上引起故障或有破坏性的原因主要有以下几种: 1. 设备本身的原因(软件、硬件) 从设备本身的原因来看也可以分为软件Bug和硬件BUG,这一类的故障比较隐蔽,一般需要厂家的协助才能检查出来,所以对于此类的故障要通过加强与厂家之间的沟通来解决,及时升级相关的软件版本和补丁,更换存在隐患的硬件板卡。这类原因引起的故障针对影响范围和规模也会有所不同。 2. 传输线路、尾纤等物理线缆的原因 传输线路、尾纤等物理线缆由于线路质量,光缆被盗,光缆被挖断等的问题引起的故障一般可能通过设备的LOG文件、端口状态情况等检查出来,对于该类的故障需要加强与传输部门和机房现场人员的沟通来解决。这类原因引起的故障如果在S9312和AC侧一般影响一条传输线路或者某1台AC。 但如果发生在接入侧则可能影响某些用户无法正常使用WLAN 业务。 3. 人为原因 由于人为配置或操作失误引起的故障,这类的故障是我们管理上要着力避免的。可通过管理制度去约束网络维护人员,代维人员,厂家等在网络上进行的操作。建立起操作审核制度、操作更变规程等相关的规范化制度。 4. 自然灾害 由于台风、洪涝、地震等各类自然灾害的影响,对机房或动力环境等可能造成严重影响,可能导致整栋机楼、整个城市的瘫痪,从而给包括WLAN 网络在内的整个网络造成严重影响。 (七) 预防保障措施 在WLAN系统的网络设计上已经避免了单台设备故障和单条链路中断对整个WLAN网络本身和对其上承载业务的影响。在网络上采用了以下技术去保证网络的安全和稳定。 1. 双节点、双平面网络设计 在网络拓朴设计上各层面节点都采用了双节点、双平面的设计,,严格按照主备设备异局址布放的原则,保证单节点故障或单平面故障时,业务流量都不会受到影响。 2. 多链路、不同传输线路的保护 WLAN系统核心交换机和AC设备采用的双链路保护,且各层设备互联链路承载在不同的传输平面上。保证在发生灾害天气、光缆中断时不会造成节点的业务全阻断。 3、 主备AC的VRRP快速切换 WLAN系统中主备AC采用VRRP协议,保证主用AC出现故障时,由备用AC来代替出现故障的AC进行工作,从而保持网络通信的连续性和可靠性。 (八) 应急措施 1、S9312侧故障 (1)S9312互联链路为2条,承载在不同SDH传输平面上,当单条链路中断时,全网业务不受 影响。当双链路中断时,可以将链路割接至波分传输平面上,保证业务的快速恢复。 (2)如果发现所有单板的指示灯都不亮,并且所有风扇不转(可通过听声音辨别),或者电源模 块的 ALARM 灯亮,则有可能是设备的供电系统出现故障,需要检修。检查电源模块的开关 是否已经打开,RUN 灯是否点亮。如果有多个电源模块,请确保至少一个电源模块正常供 电。检查电源模块的 ALARM 灯是否点亮。如果点亮,表明电源模块有异常,可尝试通过 更换电源模块解决。 (3) 当发生无法登陆设备问题,在排除了串口通信、电缆、供电系统方面的原因后,则很有可 能是主控板发生了故障。如果系统有主备两块主控板,可尝试将配置电缆连接到备用的主控板 上;如果只有一块主控板,可使用备件进行更换。 (4)当发现S9312单播转发业务不通时,首先需要检查在设备上能否收到AC的报文。可以使 用display mac 命令查看一段时间内设备接收的mac地址是否有变化。如果发现设备上无法收 到AC的MAC,可按如下步骤进行处理:检查设备的上行接口的状态是否正常,如果对应AC接口 状态正常,可以 Ping AC对端接口的 IP 地址。如果可以 Ping 通,则可以确认是AC设备出现故 障,可通告相关AC进行检修。如果无法 Ping 通,则需要检查设备的对应接口和AC接入设备 的下行接口之间的链路,例如电缆是否完好、光模块和光功率是否正常、中继设备是否正常、 IP 地址是否正确等。如果可以接收到AC侧MAC,但是下行无法转发出去,则需要检查 S9312 和 下游设备之间的连接和通信.检查设备的下行接口的状态是否正常,如果下行接口状态正常, 可以 Ping 下游设备的上行接口的 IP 地址。如果可以 Ping通,则可以确认是下游设备或更 下游设备出现故障,可通告相关局点进行检修。如果无法 Ping 通,则需要检查设备下上行 接口和下游设备的上行接口之间的链路,例如电缆是否完好、中继设备是否正常、IP 地址是 否正确等。如果链路都是完好的,则有可能是 S9312 和上层设备之间的通信异常,需要检查 路由等设置。 2、AC故障 (1)主用AC与核心S9312的链路中断,自动切换到备机工作不影响正常业务使用; (2)当主用AC硬件故障宕机,通过VRRP技术,确保主机出现故障时及时的启用备机,自 动切换业务链路,主用AC自动切换到备机工作不影响正常业务使用;当检测故障主机为硬件故 障后,应及时更换备件,确保问题解决后,经过测试方可将业务切换回主机。 (3)主用AC操作故障导致下挂所有站点业务无法使用,配置改动不当会造成用户掉线。 (4)当发生主备切换故障时,确保主备状态正常,备份链路和备份对接端口正常。 #show hotstandby group-info 进行主备状态查询 #show hotstandby port-state 进行主备端口查询 (5)当AC系统检测到网络攻击时,以下主要检查项如果发现问题,不影响业务的进行参数调 整;对业务造成影响的及时切换到备机,并处理故障;如果AC查看显示网络攻击并且该AC所 有业务无法使用则切断网络紧急排障。 3、汇聚交换机和POE交换机故障 (1)硬件故障 如发生交换机遭雷击、漏电、过载、过热、安装操作不当、运行环境恶劣等导致的损坏,或 设备自身硬件缺陷,使设备不能正常运行,业务、网管全中断,则更换整机。 (2) 供电问题 POE交换机若带的AP过多,可能导致后面的AP供不上电,无法上线带业务,可修改调测 POE供电参数,如果修改不能解决,可以减少AP数量或增加POE交换机。 (3)端口环路 当POE交换机个别端口下接的AP存在故障,或网线施工时存在问题,会导致该端口下有环 路,引起广播风暴,影响整个热点的AP都无法上线,可在POE交换机业务口下开启AP管理vlan 的环路检测,当有环路时,自动阻塞该端口,保证其他AP业务正常,然后排查该端口。 (4) 设备吊死 当设备吊死时,故障现象有时为业务和网管都不通,有时业务是好的但网管不通,一般重启 设备都能解决,如果重启仍不能恢复,按硬件故障处理方法处理。 (九) 告警处理 常见维护中重要告警、常见问题的处理措施: AC部分: 1 、设备升级失败无法工作 【处理措施】:(1)AP升级失败后请通过TFTP方式对设备进行升级。 (2)AC升级失败后请在设备开机后通过串口进行复位操作,rescue后恢复出厂操作 系统后再进行最新版本的升级。 【操作指令】:无 2、 当AC串口出现分区错误, 【处理措施】:此时需要对该分区进行格式化,否则对一些AC的参数配置保存会有影响。 【操作指令】:常见的一些分区格式化操作方法: sda7分区: umount /mnt/UserSetting_bak/ mkfs.ext3 /dev/sda7 dfmt3 /dev/sda7 新版本命令 mount /dev/sda7 /mnt/UserSetting_bak/ sda6分区: umount /var/log/ mkfs.ext3 /dev/sda6 dfmt3 /dev/sda6新版本命令 mount /dev/sda6 /var/log/ sda5分区: umount /mnt/UserSetting_bak/ mkfs.ext2 /dev/sda5 dfmt3 /dev/sda5 新版本命令 mount /dev/sda5 /mnt/UserSetting_bak/ 3、AC的各接口的MAC出现全0 【处理措施】:AC的各接口的MAC出现全0时,表示AC的MAC丢失了,这时需要RD做 一个ZCOMKEY导入到AC中,进行恢复。 1、在AC启动的时候选择进入rescue这个系统。 2、进入后然后输入:rescue 3、等待设备重启。 4、重启后串口可进入第二个系统,然后输入ifconfig,查看一下MAC地址是否 存在,如不存在的话需要输入:serial-number,将结果发给RD,我们会做个 zcomkey文件。 5、将该文件拷贝到C盘根目录,更名为:zcomkey.dbg 然后ftp 192.168.1.228 comba password put zcomkey.dbg 6、在AC串口中输入:mv /home/sw/zcomkey.dbg /mnt/factory/zcomkey 7、输入reboot 8、等设备重启完毕,进入WEB重新升级最新FW即可。 【操作指令】:ifconfig;serial-number;reboot; 4、AC非法进程,或者缺少一些应用进程 【处理措施】:可以手动在串口中将他重启。 【操作指令】: # killall -9 sshd # killall -9 sshd killall: sshd: no process killed /杀掉进程 # sshd & /重启进程 5、AC 的日志功能在WEB中无法显示 【处理措施】:AC 的日志功能在WEB中无法显示,这大多是由于/var/log/messages文件出错导致, 可进行如下的操作进行恢复。 【操作指令】: 1. 串口进入AC,或者SSH到fullcontrol下: 2. cd /var/log /进入日志文件夹 3. ls –all /查看messages文件大小 4. cat messages /读取messages文件是否有内容 5. move messages messages_bak /备份messages文件 6. touch messages 7. ls /查看新建的文件是否存在 8. /sbin/syslogd /启一下日志进程。 6、AC上出现AP异常离线故障分析思路 【处理措施】: 1、首先前往AP的POE交换机上接PC,设置和AP同网段的地址去ping AC的LAN口,观察ping包 的延时情况,如果ping包严重丢包,说明链路存在不稳定,环路等问题,需要链路厂家协助解 决。 2、排查AP的网线,POE供电交换机是否正常,AP是否有重启的日志,接AP的串口查看AP的: Get system bridge 是否拿到AC分配的地址,包括AP的DHCPD,WLTPS进程是否都在。 3、如果AC和AP之间走的三层架构,AP拿不到AC分配的地址的话,需要检查DHCP RELARY的设 置是否正确,可以试试手动给AP指定地址,观察AP能否正常上线。 4、检查AC的NM口,HB口,瘦AP端口的地址是否存在冲突,如果冲突也会导致AP无法正常上 线。 5、AP离线的问题基本是管理数据包报文丢掉,目前没有发现过版本中存在AP上线不稳的问题,所 以遇到此问题时首先要排查一些外界因素,其次在一些特定的环境下也会存在AP异常离线的情况, 根据不同的情况要做不同的分析,最直接的方法可以对AP的有线口和AC的LAN进行同时抓包,观 察AP的DHCP广播包以及TCP连接的报文情况,能够很清晰的定位出问题的原因。 【操作指令】:无 AP部分: 1、需要更改AP的FW 【处理措施】:对于现场一些紧急的情况,只需要更改AP的FW的话,可以手动将AP的FW PUT到 AC中,然后修改AC中的fwmange的型号即可。(由于目前AC的内存容量有限,不能 长时间保存,AC重启后该FW会丢失。) 【操作指令】:第一步:将FW的名字改成:ixp425_bg_s_64.dbg并放到C盘根目录下。 第二步:进入DOS ftp 172.16.7.254 comba password put ixp425_bg_s_64.dbg 第三步:SSH到AC上。 /在full_control下 mv /home/sw/ixp425_bg_s_64.dbg /home/sw/fwdir/ixp425_bg_s_64.rmt killall -9 wltps 第四步:将fwmanage.dat文件拷到C盘根目录并改名为:fwmanage.dbg ftp 172.16.7.254 comba password put fwmanage.dbg 串口进入full_control mv /home/sw/fwmanage.dbg /etc/fwmanage.dat killall -9 wltps 2、AC的“瘦AP在线列表”显示AP在线,但无法正确显示“版本”和“信道” 【处理措施】: 1、 检查AP与AC的软件版本是否兼容,若不兼容请升级。 2、检查AP与AC之间的物理链路是否通信正常,通过ping包方式进行检测,若有丢包情况,请 检查网线与水晶头制作。 【操作指令】:无 3、AP插上POE电源或接入到POE交换机时,AP不上电,状态指示灯不亮 【处理措施】: 1、检查POE电源适配器工作是否正常,POE电源模块指示灯是否常亮,尝试更换POE电源适配器。 2、检查AP的220V供电是否正常。 3、检查POE电源模块与设备的网线连接是否正确。 4、尝试更换POE电源模块和连接网线。 5、检查AP与POE交换机连接网线的两端水晶头制作是否标准。 6、检查POE交换机端口POE供电功能是否启用。 7、尝试更换POE交换机端口以及 AP与POE交换机间连接网线。 【操作指令】:无 4、瘦AP无法正常关联AC问题 【处理措施】: 1、 是否AP供电发生变化导致,例如POE交换机或本地供电盒损坏。 2、 观察连接AP交换机的指示灯,是否有频繁切换的现象或指示灯狂闪的现象,需要排除是否有网络广播风暴或环路的可能。 3、 AC和AP的版本是否正常匹配,AP版本和AC版本如果相差太多,会导致AP关联不上AC 4、 AP是否正确获取到了AC的DHCP地址池的地址。 5、 检查AP和AC间的交换机数据配置是否正确,AP的DHCP请求通过交换机是否可以到达AC的LAN口。 6、 检查AC的DHCP地址池设置是否正确,“瘦AP端口IP地址1”是LAN口的地址,“DHCP状态”应为“打开”,如果AP与AC跨三层关联,AC上还要设置“静态路由”。 7、 通过抓包捕捉AC与AP间的数据交互,可以比较准确的定位AP的DHCP请求到哪个设备,判断出故障所在。 【操作指令】:无 5、一个VLAN里的AP无法上线 【处理措施】: 1、 检查AP接入交换机数据配置如何。尝试给瘦AP配置静态地址,是否能够从AC上ping通AP,或者 用笔记本尝试access端口ping AC。 2、抓包分析链路,在AP采用DHCP获取地址方式下检查AP与AC建立交互的四个过程,dhcp discover、offer、request、ack过程是否完整,查看是否中间环节哪个设备由于协议、策略问题将其中部分报文丢弃过滤导致。 3、通过交换机的风暴侦测机制检查是否由于广播风暴导致。 4、通过交换机的环路检测功能检查链路中是否有环路。 5、排查交换机工作是否正常,指示灯闪烁是否正常等。 【操作指令】:无 (十) 工作流程图 (十一) 应急资源配备(含备件) 1、备份现网AC配置数据,备份热点VLAN信息数据 2、现网AC备用板卡,光模块等 3、登陆设备的工具,包括电脑、网络连接工具、帐号、密码,如果到现场处理,还要准备串口线 4、抓包工具:wireshark (十二) 知晓范围 1. 省网管中心 2. 地市分公司 说明:在启动应急预案后,除上述知晓范围外,还应按照紧急故障流程中信息上报的要求向相关领导汇报处理。 (十三) 相关人员联系表 单位 姓名 联系电话 邮件 备注 设备维护中心 何红伟 13832885935 hehongwei_ts@ 数据传输中心 范东堃 13722529188 fandongkun_ts@ 网络服务中心 李刚 15233339876 ligang1_ts@ 网络服务中心 孙腾 13603150550 sunteng_ts@ 设备厂商技术支持人员联系表 设备供应商 负责人/联系电话 武汉虹信 郭志刚13882993824 福建三元达 王建龙15932591665 京信 刘文宝18628368023展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




唐山移动wlan系统应急预案2012816讲解学习.doc



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/3913699.html