基础网络升级(三)

前两篇(1, 2)基本覆盖了此次升级的整个思想以及操作过程包括一些细节的涉及,不过在升级完之后,我们部署在老机房的监控系统发现,从老到新的中间的链路的质量比较差,三层之间路由接口的丢包很严重:
# ping IP_NEW repeat 8000

平均会丢 100+ 个包,丢包率超过了 1%,从监控到对端服务器的丢包就更严重了,平均都在 10%,峰值能达到 80%,注意这是两个打通的内网,我们也因此几乎无法登录到新机房的服务器进行操作,即使进去了,ssh 也是『卡』的让人随时受不了,网页完全打不开。丢包没有任何的时间特征,几乎是全天候。花了很长的时间 debug 确认了应该不是我们的问题之后,目光转移到了我们的服务商那里,猜测可能是中间链路的光纤或者连接器之类的问题。

期间,由于不稳定造成了几次很严重的网络中断。后来,对方的工程师也承认这根光纤衰减跟正常的偏差较大。最终决定更换这根光纤。

结果可想而知,下图是我们新机房某台交换机的 ping latency,效果很明显。

有时候我们会太天真的认为,光纤是很稳定的,正常情况下,是不可能出问题的,不过偏偏就是中了。

事后也进行了一些讨论包括 post-mortem,不过都是些治标不治本的点到为止,尽管我对此事非常的关注甚至『恼火』,在跟对方的邮件沟通中措辞非常的严厉,不过也只是搔搔痒罢了,我能做的就这么多。
当然,上面一系列的工作不属于我的工作范畴,既然做了就把他做好,至于有些不该知道的,就装作不知道好了。这个基础升级就写到这里为止,再下去就真的要到非技术层面了。