近年來無論是國外還是國內(nèi)的數(shù)據(jù)中心,因為電力故障導致的服務器宕機不在少數(shù),而且都值得人們引起注意和反思。
10日周二早上6:30到周三下午14:30,提供云服務的Salesforce.com遭遇了一次由于停電導致的大范圍服務器宕機,此次宕機影響了北美的14個站點,同時北美的用戶也受到影響。
更糟糕的是,宕機故障發(fā)生后,Salesforce.com工作人員希望將數(shù)據(jù)庫恢復到4小時以前的狀態(tài),但不幸的是,這一操作進而導致了這4個小時內(nèi)的數(shù)據(jù)丟失。
此消息一出引起了廣泛關(guān)注。一位使用了salesforce.com五年的用戶表示,從未想過提供云服務的salesforce.com會出現(xiàn)因電力故障所引起的服務器宕機。
其實近年來無論是國外還是國內(nèi)的數(shù)據(jù)中心,因為電力故障導致的服務器宕機不在少數(shù),而且都值得人們引起注意和反思。
數(shù)據(jù)中心電力故障事件比比皆是
2011年11月,據(jù)網(wǎng)友爆料,世紀互聯(lián)天津機房出現(xiàn)了停電事故,部分地區(qū)的互聯(lián)網(wǎng)用戶受到影響,受到此次事故影響的互聯(lián)網(wǎng)服務包括傲游瀏覽器、豌豆莢等。
2012年7月,美國東海岸爆發(fā)的大型雷電暴風雨導致亞馬遜云計算數(shù)據(jù)中心電力遭到破壞,暴風雨損害了他們的主要電力服務和備用發(fā)電機,包括Netflix、圖片共享服務Instagram和Pinterest在內(nèi)的客戶服務出現(xiàn)中斷。
2012年10月,電商網(wǎng)站凡客誠品(vancl.com)出現(xiàn)訪問故障。凡客誠品相關(guān)負責人表示,出現(xiàn)這一問題是因為機房停電。據(jù)悉當天還是凡客誠品五周年的紀念日,此次停電事件造成的經(jīng)濟損失據(jù)說達千萬元。
2014年11月,新加坡證券交易所(SGX)業(yè)務系統(tǒng)中止了將近三個小時,因其數(shù)據(jù)中心無法應付由雷擊引起的電壓波動而停電宕機,并且導致其切換到輔助數(shù)據(jù)中心的數(shù)據(jù)不完整。由于停電,致使2小時42分的證券交易中斷和4小時27分鐘的衍生業(yè)務計劃外停機,嚴重影響新加坡作為金融中心的聲譽。
2015年8月,位于美國洛杉磯市中心的一個高層建筑的地下室發(fā)生了爆炸,一個三級通信網(wǎng)絡基礎(chǔ)設施在爆炸中連接中斷,其中影響了很多該地區(qū)數(shù)據(jù)中心用戶的業(yè)務,由于這個事件發(fā)生,一家公司的數(shù)據(jù)中心全部斷電。
2015年9月,日本富士通集團在美國硅谷的數(shù)據(jù)中心遭遇停電,致使其一些云服務中斷。一些客戶報告說,其影響持續(xù)了幾天之久,這個問題是由輸變電設備發(fā)生故障引起的。
……
數(shù)據(jù)中心停電損失超過5000美元/分鐘
眾所周知,對于數(shù)據(jù)中心來說電是至關(guān)重要,數(shù)據(jù)中心的正常運轉(zhuǎn)唯一離不開的就是電,不難想象,無論數(shù)據(jù)中心設備多么先進、功能多么強大,可是一旦斷電,再好的系統(tǒng)也無法運轉(zhuǎn),電對數(shù)據(jù)中心的重要性就像水對魚兒的重要性一樣。
雖然如此,數(shù)據(jù)中心停電事故并不少見,根據(jù)一份研究報告顯示,95%的美國企業(yè)在過去兩年中至少遭遇一次數(shù)據(jù)中心停電事故,導致停電的原因有的是因為天災意外無可避免,有的是因為數(shù)數(shù)據(jù)中心專業(yè)人員采用措施不當且投資不足,阻礙了停電預防和停電反應時間等等。
但無論是哪方面的原因所致,相信這都是業(yè)界不愿看到的,因為即使是短暫的電力中斷也會很麻煩。失去0.02秒電力,可能觸發(fā)讓IT設備遭遇15分鐘到數(shù)小時的宕機事件,這種停機時間將讓企業(yè)付出巨大的代價。據(jù)了解,數(shù)據(jù)中心意外停電每分鐘損失可超過5,000美元,包括收入和生產(chǎn)損失、數(shù)據(jù)損毀和利益相關(guān)者的信任受到損害帶來的損失,以及企業(yè)所付相應的法律責任所導致的損失。
機房停電折射數(shù)據(jù)中心服務商運營能力
數(shù)據(jù)中心停電所帶來的損失除金錢方面,更重要的是公司聲譽和客戶信譽的永久性損失。數(shù)據(jù)中心的用戶會對服務商的服務能力表示擔憂,數(shù)據(jù)中心服務商的服務能力因此而將受到極大質(zhì)疑。機房停電后為何備用電源及發(fā)電設備沒有緊急啟用?網(wǎng)站數(shù)據(jù)和相關(guān)災備服務是否到位等問題,都折射出數(shù)據(jù)中心服務商在應對突發(fā)事件的處理乏力,機房運營能力薄弱等問題。
那么如何來規(guī)避電力故障事件的發(fā)生,在數(shù)據(jù)中心的供電系統(tǒng)這方面應提出更高的要求,爭取做到數(shù)據(jù)中心永不斷電。
首先是要考慮供電系統(tǒng)的可靠性,尤其隨著數(shù)據(jù)中心承載的業(yè)務越來越多,也越來越重要,大中型的數(shù)據(jù)中心都要求達到99.999%以上的供電可靠性。
其次是考慮供電的持續(xù)性,在數(shù)據(jù)中心建成以后,供電系統(tǒng)就很難再做調(diào)整了。所以在數(shù)據(jù)中心建設初期一定要對供電系統(tǒng)進行周密設計,并對數(shù)據(jù)中心的未來進行預估,做出預留。
最后是要考慮維護管理的便捷性,在設計建設數(shù)據(jù)中心供電系統(tǒng)時,必須考慮后期使用維護的方便性。目前有不少數(shù)據(jù)中心供電系統(tǒng)的管理軟件,通過管理軟件對供電系統(tǒng)進行智能化管理,往往可以減少維護的工作量。
當然,要想建設質(zhì)量高的供電系統(tǒng)不僅需要全面周全的設計和具有前瞻性的分析,更重要的是要有資金的投入,而以上這些都是對數(shù)據(jù)中心服務商能力的考驗。
文章來源:機房專用空調(diào) http://keenjuche.com.cn