BAT概莫能外!近年數據中心嚴重宕機事故盤點

發布時間:2019-07-24
  如今,數據中心已經成為了我們生活當中看不見,但又離不開的存在。它的穩定關係所有人的生活......一旦宕機,後果不堪設想。不僅會造成用戶無法正常訪問應用,嚴重的還會造成巨大經濟損失。據美國調查機構數據顯示,數據中心宕機,能夠造成每分鍾將近1萬美元的經濟損失。
 
  YouTube對於美國人來說,恐怕和咱們的抖音地位相當。其用戶覆蓋了美國,南美,北美以及歐洲大部分地區。在2018年10月16日晚上,正當用戶像往常一樣輸入賬號和密碼準備登陸的時候,卻總是提示失敗。
 
  事後得知,YouTube的服務器出現了宕機,時間持續了超過2個小時。影響的範圍包括網頁版和移動端,造成的結果就是用戶無法訪問網頁,登陸或者播放相關視頻。
 
  事實上,宕機事件是行業普遍現象,並非YouTube所獨有。其中不乏微軟、騰訊、阿裏巴巴等互聯網巨頭。下麵咱們就來看看過去幾年,世界各國出現的比較經典的宕機事故吧。
 
  1、2018年微軟Azure宕機
 
  2018年9月4日 09:29,微軟雲服務 Azure報告,由於美國中南區數據中心附近發生了雷擊在內的惡劣天氣事件,導致冷卻係統的電壓暴增,使得多個 Azure 服務出現連接問題,客戶儲存在中南區數據中心的資源受到嚴重影響。
 
  2、2016美國大宕機
 
  美國一向以互聯網鼻祖自居,同時其網絡防護的安全性也是傲視群雄。可就在2016年10月21日早晨,從美國東部開始,Twitter、CNN、Spotify等大型網站均開始出現無法登陸的現象,最後這一情況蔓延到全美。這也造成了很多用戶恐慌,因為原因是服務器遭受了黑客的DDos攻擊。
 
  3、2015亞馬遜雲服務宕機
 
  一般來說,新業務或者大型活動,都會造成大量數據峰值爆發,如果處理不當,數據中心算力不足也會導致宕機。比如在我國的雙十一,618等節點,電商們都會臨時調用其他部門的算力來應急。但在國外,好像不太流行這種方法。亞馬遜2015年新上線的DynamoDB,因為運維人員對數據峰值評估不謹慎,導致服務器因為過載而宕機。於是Reddit、Tinder、Netflix和IMDB在內的眾多流行應用和網址直接訪問失敗,時間長達幾個小時。招致用戶罵娘者無數......
 
  4、2015支付寶宕機事故
 
  在2015年5月27日,位於杭州市蕭山區的一處地下光纜被挖斷,該事故導致阿裏巴巴的數據中心業務請求中斷,直接影響了支付寶的部分用戶,出現賬戶無法登陸或者支付的情況。雖然後來支付寶工程師緊急將其用戶請求切換至其他機房,但該事件的影響依然持續了將近5個小時。
 
  5、2013年雅虎郵箱故障
 
  雅虎這家公司對於現在的年輕人可能不太熟悉了,但是在二十年前,可是號稱最偉大的互聯網公司。2013年10月,在雅虎郵箱的重大功能升級之後,部分用戶發現賬戶中的一些信件不翼而飛了。最開始雅虎公司對自己出現的問題避而不談,直到當年12月份才不得不承認,是由於服務宕機,導致1%的雅虎郵箱賬號出現了故障。據悉,當時郵件通訊受到影響的雅虎用戶大約有100萬人左右。主要現象是郵件丟失,很多郵件在數月之後依然處於未發送狀態。
 
  6、2013納斯達克宕機
 
  納斯達克不用說了吧,人盡皆知。在2013年8月22日,其交易所的備用服務器被暴出重大Bug,使得市場交易中斷達3個小時。雖然事後恢複,但依然引起了市場恐慌。作為納斯達克交易所運營商的OMX集團股票被大量拋售,使得其股價當日最大跌幅超過5%......多麽可怕?
 
  在這一事件過後沒多久,納斯達克立馬升級了它的證券信息處理器,改進了包括架構、信息安全、故障後恢複方案和性能參數在內的多項設計。
 
  7、2013微信宕機事故
 
  你以為宕機事故在BAT當中是個例?那你就錯了。這件事說起來估計很多用戶都還記得,在2013年7月22日,微信也出現過一次嚴重的宕機事故。導致了服務中斷達7小時之久。最後調查的結果顯示,這是因為一支施工隊無意間挖斷了通信光纜,造成騰訊華東數據中心網絡中斷,其服務不得不臨時轉向華南和華北,使得整體業務全麵癱瘓。
 
  8、2012年颶風桑迪帶來的“天災”
 
  服務器宕機除了運維不當的人禍之外,也有天災的影響。比如在2012年,美國著名的颶風桑迪就造成了全美大範圍電力中斷。致使部署在紐約的大批服務器“罷工”,包括《赫芬頓郵報》、“嗡嗡喂”和摑客網在內的眾多大型知名網站都癱瘓了,給居民的工作和生活造成了嚴重影響。
 
  9、2009年微軟雲服務宕機事故
 
  2009年秋天,微軟出現的一次雲服務宕機事故,主要影響的是T-mobiles Sidekick手機用戶。導致的結果是用戶的EMAIL無法登陸,日曆信息顯示出錯,與他人聯係中斷。周期持續長達一周之久......此事件微軟最後被用戶搞的相當狼狽。
 
  10、2005穀歌遭雷劈
 
  2005年,穀歌位於比利時的數據中心由於遭遇了4次閃電襲擊,導致磁盤受損、部分雲存儲係統斷線、數據丟失。後來雖然經過緊急搶修恢複了絕大多數的設備,但仍然有0.05%的磁盤未得到修複,造成其中的數據永久丟失。
 
  由此可見,宕機對用戶的影響有多麽嚴重。據外國分析人士指出,造成宕機的原因最主要的來自於人為,包括停機,設備老化,維護措施不當等。除此以外,由於選址,雷擊等天災問題造成的宕機也占一部分因素。
  
  其實,造成數據中心宕機的原因五花八門。甚至包括鬆鼠啃噬數據中心外部電源線而導致的停電事故,有的是鐵錨刮斷了設置在海底的通訊電纜,或者由於點燃的煙頭引起的火災。
 
  在現如今,隨著5G和邊緣計算的逐步落地,未來數據中心會朝兩個方向發展。一個是大規模的雲計算數據中心集群,另一個方麵則是星羅棋布的邊緣數據中心。如果說擁有7x24小時不間斷人工維護的大型雲數據中心尚且難保萬全,那麽今後那麽多無人值守的邊緣數據中心又將如何呢?

網站地圖:sitemap
网站地图:sitemap