
公司
今年我只经历过一次这样的情况。两个月前的一个早晨,我去
公司的数据中心上班。那天Cisco的工程师要过来与我们的副总裁(VP)会面。当时我刚入职不久,正好我们主管也想找我聊聊工作进展。坐在会议室对面的是网络组的一位同事,他正在调试BGP协议,似乎是与最近的数据中心迁移有关。而我的职责是负责高性能计算(HPC)的交付任务,所以早上主要是和各个小组的同事开站会,跟进项目进度以及回复邮件。开会的时候我跑到了外面,在与云计算组的同事沟通到一半时,会议突然卡住并掉线了。透过会议室的大
玻璃窗,我看到我们的VP正在里面拉网线。我敲门问他是不是Wi-Fi断了,他说整个网络都中断了。这时我突然想起他们刚才在调整BGP,心里立刻有种不祥的预感,感觉这可能和断网有关。于是我赶紧跑到之前的小会议室,问那位同事是否已经确认断网。他正忙着开会,没有时间理会我。我尝试用自己的
手机热点连接,却发现我们自己的公有云VCD也无法访问了……几分钟后,VP一边打电话一边冲进来,询问具体情况,但同事表示不清楚。VP又问影响范围,同事同样回答不上来。那一刻,我感觉到自己的心跳慢了半拍,而VP的心跳恐怕已经停了两拍。大约十分钟之后,NoC(网络运营中心)新建的工单数量从两页增加到了三页,全都是紧急/关键/硬宕机的问题报告(平时一周都不会有这么多)。这次区域性断网引发了一系列连锁反应,导致HSRP(热备份
路由器协议)和灾难恢复(DR)机制全部失效。似乎所有流量都被挤到了另一个数据中心的某个节点,出站时开始丢包。更糟糕的是,同事无法远程重启BGP服务,只能进行硬重启。偏偏此时,另一个数据中心无人值守。我叫上了负责巡检的同事带路,开车赶往另一个数据中心。为以防万一,我还特意带上了一根console线。出门的时候,我已经隐约听到门口传来嘈杂声,一些客户已经在现场发脾气了。那位调试网络的同事被VP留在了
公司,而越来越多客户的运维人员进入了机房。恰好思科的工程师也赶到了现场,一看到这个混乱场面,我们的VP直接被众人围住,随后悄悄溜走了。后来才知道,当时东部的两个数据中心全都宕机了。在开车赶往另一个数据中心的路上,我的声音都在颤抖,呼吸也有点急促。同行的facility technician安慰我说别紧张,这又不是我们的错,以前还发生过更严重的情况。最终,我们重启了一批核心交换机和
路由器后,网络才逐渐恢复正常(说实话,当时我动手重启设备的手也在发抖)。