您當(dāng)前的位置是:  首頁 > 新聞 > 國際 >
 首頁 > 新聞 > 國際 >

從亞馬遜AWS S3故障來看、數(shù)據(jù)中心容災(zāi)越來越重要

2017-03-06 11:04:08   作者:   來源:CTI論壇   評論:0  點擊:


\ 
  本周二,亞馬遜AWS位于弗吉尼亞州的數(shù)據(jù)中心出現(xiàn)故障,影響數(shù)千個在線服務(wù),Netflix、Airbnb、Slack、Spotify、雅虎網(wǎng)絡(luò)郵箱等互聯(lián)網(wǎng)服務(wù)受到明顯影響。亞馬遜AWS報告稱,云存儲服務(wù)S3出現(xiàn)了“高錯誤率”。亞馬遜將S3定位為“簡單存儲解決方案”,數(shù)據(jù)顯示,S3被近15萬家網(wǎng)站使用,此次故障影響范圍極廣。
  目前,云存儲已經(jīng)成為互聯(lián)網(wǎng)和傳統(tǒng)企業(yè)的必備基礎(chǔ)服務(wù),國內(nèi)云廠商如何降低云存儲的風(fēng)險?
  騰訊云作為國內(nèi)最大的云存儲服務(wù)提供商之一,騰訊云的對象存儲COS,為“微信朋友圈”等海量業(yè)務(wù)提供云存儲服務(wù),騰訊云有什么樣的對策?
  騰訊云對象存儲COS團(tuán)隊認(rèn)為,本次事故是亞馬遜的一個數(shù)據(jù)中心出現(xiàn)了事故,引發(fā)了云存儲服務(wù)的中斷,事故是一個結(jié)果,問題可能出現(xiàn)在任何一個方面,“而容災(zāi)是應(yīng)對這類問題的解決方案,磁盤級別容災(zāi),服務(wù)器級別容災(zāi),集群級別容災(zāi)可以在數(shù)據(jù)中心的事故發(fā)生前避免問題,而機房級別容災(zāi)和跨地域容災(zāi)則在機房事故發(fā)生后解決問題”。
  針對類似事件,騰訊云可以提供上述5大容災(zāi)服務(wù),分別從磁盤、服務(wù)器、集群、機房、跨地域等五個方面,為云存儲提供全方位的可用性保障:
  磁盤級別容災(zāi):多備份數(shù)據(jù)冗余
  對于保存在騰訊云存儲服務(wù)中的每個數(shù)據(jù)塊,都實現(xiàn)了“RAID”備份,即一份數(shù)據(jù)會存在多個副本或者校驗碼。同時利用底層磁盤的接口將其每個磁盤且分為多個扇區(qū),并監(jiān)控各個扇區(qū)的情況。
  一旦檢測出磁盤部分扇區(qū)發(fā)生異常,會停止針對該扇區(qū)的寫入和讀取,然后利用冗余數(shù)據(jù)對原有的扇區(qū)進(jìn)行修復(fù)。在這個修復(fù)過程中用戶仍然可以讀取冗余數(shù)據(jù),服務(wù)持續(xù)可用。
  服務(wù)器級別容災(zāi):條帶化打散數(shù)據(jù)
  騰訊云利用“條帶化”技術(shù),將多備份的用戶數(shù)據(jù)分解成多個數(shù)據(jù)塊均勻放置在不同服務(wù)器之間。一旦檢測出單臺服務(wù)器出現(xiàn)異常,會停止對整個集群的數(shù)據(jù)寫入,將數(shù)據(jù)寫入遷移到同機房的其他集群中,隨后集群內(nèi)部針對異常服務(wù)器啟動壞盤修復(fù)。
  如果修復(fù)失敗,7*24值班的運維人員將人工介入,更換壞盤。在修復(fù)過程中,用戶可以從異常集群中健康的服務(wù)器中持續(xù)獲取數(shù)據(jù),服務(wù)持續(xù)可用。
  集群級別容災(zāi):不同集群互為主備
  騰訊云在每一個機房中會配備多個集群,每個集群可以提供完整服務(wù),用戶的數(shù)據(jù)塊被分布在不同集群的不同服務(wù)器中。如果某個特定集群失去服務(wù)能力,修復(fù)方式如同服務(wù)器異常。該集群整體暫停數(shù)據(jù)的寫入和讀取,保留異常現(xiàn)場,將數(shù)據(jù)寫入遷移到同機房的其他集群中,集群內(nèi)部開始自動修復(fù)邏輯模塊或者存儲模塊。在修復(fù)過程中,用戶可以從其他健康集群中持續(xù)獲取數(shù)據(jù),服務(wù)持續(xù)可用。
  機房級別容災(zāi):可用區(qū)物理隔離
  騰訊云目前在每個存儲大區(qū)配備了多個可用區(qū),每個可用區(qū)之內(nèi)配備多個機房。每個可用區(qū)保證一定物理距離,當(dāng)發(fā)生爆炸,洪水等惡劣的物理情況或者小規(guī)模運營商網(wǎng)絡(luò)癱瘓,騰訊云將自動調(diào)度數(shù)據(jù)的寫入和讀取,暫停災(zāi)難受影響區(qū)域的機房使用,保留存量數(shù)據(jù)不改變。
  在災(zāi)難過程中新的數(shù)據(jù)寫入和讀取,將遷移到同城的其他機房或者臨近城市的機房,整體存儲大區(qū)的服務(wù)不中斷。同時騰訊云提供跨機房跨可用區(qū)的數(shù)據(jù)冗余備份能力。
  跨地域級別容災(zāi):跨地域自動備份
  騰訊云已經(jīng)在華北大區(qū),華南大區(qū),華東大區(qū),西南大區(qū)和東南亞大區(qū)提供了數(shù)據(jù)存儲服務(wù),并且提供“主備數(shù)據(jù)中心”的解決方案,用戶可以選擇將主站的數(shù)據(jù)服務(wù)保留在某一區(qū)域,同時在上千公里之外保留備份數(shù)據(jù),騰訊云將代替客戶將主數(shù)據(jù)中心的數(shù)據(jù)在短時間內(nèi)自動搬遷到備份數(shù)據(jù)中心。
  當(dāng)發(fā)生運營商網(wǎng)絡(luò)大規(guī)模癱瘓或者大面積災(zāi)難來臨,用戶可以將服務(wù)指向備份數(shù)據(jù)中心存儲區(qū)域,應(yīng)對異常問題。
  用戶未來還可以選擇騰訊云即將推出的離線存儲服務(wù),以極低的成本享受到災(zāi)備數(shù)據(jù)的保護(hù)。
  目前,騰訊云已經(jīng)向大眾點評,廣東氣象局、芒果TV、CNTV等多家企業(yè)提供可靠穩(wěn)定的服務(wù)。
  專注于數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理,分享運行維護(hù)經(jīng)驗,分享數(shù)據(jù)中心行業(yè)發(fā)展趨勢及新技術(shù)應(yīng)用。

專題