技术分享 网吧每隔一分钟掉线一次故障的解决过程,提供一种新思路 [复制链接]

Smart
三国LV5
技术中心 19784 0 2018-11-30 11:57:55
本帖最后由 Smart 于 2018-12-1 16:28 编辑

问题现象:
前天拉的光纤专线入场接通后,客户机频繁卡死,游戏掉线,而且是全场掉,所有游戏都掉或者卡死。
网吧的基本情况:
网络:百为3900+顺网主交换+分支交换
外网接入:ADSL*2(每个四拨,下载速度轻松过30+M)+40m电信光纤(刚开通2天)

处理过程:
1.刚开始听网管说,有些不信。以为是夸大其辞,让他先把路由重启下。
10分钟后反映,好像情况好点。以为问题解决让继续观察,半小时后又来电话,说还是玩不成,1分钟一卡
之后又远程指导他把主交换,分支交换都重启了一遍。(中间发生他把主交换和分支交换机的连接光纤给弄掉了,造成开机都开不了的插曲,远程指导了半天才挨个检查弄通内网)
结果还是反映一分钟一掉

2.内网ping网关稳定不掉,外网ping外网网关,DNS,几乎同时都掉(如下图)
初步判断,内网ping网关正常,说明内网没问题,外网同时掉,估计是外网故障。
由于是3条外网,所以找了3个电脑同时开机,每个机器分流单独走一条线路,以此来判断是哪条故障。
结果,故障和上图一样。三条外线同时故障?同时一个时间点都丢包?(可能性太低,没继续考虑下去)

3.考虑是不是无盘的问题,又在两个收银机,一个无盘服务器上继续以上测试
结果还是和上图一样,我就郁闷了个天的。
果断联系百为客服,让看下是不是路由有问题,或者是设置问题。经过工程师监测说,我ping的掉线的时候路由ping相同地址并没有丢包……肯定是内网问题!
让我在内网找问题,此时一头的雾水迷茫中,网吧老板手头没有任何可以替换的交换机设备,而且网吧目前还在营业。中间考虑到工程师说的外网没故障是内网故障的推断,怀疑是不是路由问题,在路由把内网数据给外网数据转发过程中造成的丢包。所以就让老板换个路由器试试看。
换了新路由什么分流也不加,只设置一条线路带整个网吧,三条线路分开试,看有问题没。
结果是残酷的。还是和上图一样。

4.最后排查半天也没有结果,决定联系百为工程师。简诉了问题的情况,然后把上图截图过去。一工程师直接说一定是外网故障了。这时另一位工程师主动要求地址和密码,他要进路由看看,果断给之。看了后说,路由没问题外网也好着,然后我同时又抓了以上相似的图给他看。
这时他发现了问题了所在(这个就是他神奇的地方,现在写出来,让大家也多个参考。)
看下图标出来的圈
标红圈的TTL不是255,这个肯定是和某个交换机冲突了。
这时网管给我说,他们的网就在接了光纤外网调通后就坏了,调通后停电,来电后就坏了。
此时,工程师刚好给我解释说,如果有停电情况,某些交换机的IP在改了之后,施工人员失误没有保存。再来电的话,会恢复原来的IP,果断把路由的IP改成1.252,然后继续ping 1.254居然还是通的。抱着试试看的心情登录了1.254,还好端口是80,不然我还要扫描端口。默认密码进去。

5.之后的恢复过程无非是改各种ip,因为改完路由地址后,改了无盘的网关地址,让底下客户机重启,先让他们不卡了再说。
后面过程就不细说了
总结:以后可以简单的通过ping的模式,看出是不是有不同种设备IP冲突。免的我们多走弯路。


您需要登录后才可以回帖 立即登录
高级模式
返回
统计信息
  • 会员数: 29068 个
  • 话题数: 9636 篇
  • 巅峰数: 5500 人