支付寶災(zāi)備能力為何引發(fā)爭議?

2015-05-29 09:48:11   作者:   來源:《財(cái)經(jīng)》   評論:0  點(diǎn)擊:


  5月27日下午5點(diǎn),擁有將近3億活躍用戶的支付寶出現(xiàn)了大面積訪問故障,全國多省市支付寶用戶出現(xiàn)手機(jī)和電腦支付寶無法登陸、余額錯(cuò)誤等問題。對于導(dǎo)致此次事件的原因,螞蟻金服方面的解釋并未獲得金融和互聯(lián)網(wǎng)界的廣泛認(rèn)同。

  在螞蟻金服發(fā)的官方回應(yīng)中稱,出現(xiàn)這一問題的原因在于市政施工導(dǎo)致杭州市某地光纜被挖斷,影響了支付寶一個(gè)主要機(jī)房的正常運(yùn)轉(zhuǎn)。當(dāng)天晚上19時(shí)左右,即在事故發(fā)生大約兩個(gè)多小時(shí)以后,支付寶服務(wù)才恢復(fù)正常。

  螞蟻金服稱,無法精確統(tǒng)計(jì)在故障時(shí)間段內(nèi)使用支付寶的具體用戶數(shù)量。

  擁有超過4萬億年交易總額的支付寶是中國第一大第三方交易平臺,約占中國整體社會消費(fèi)金額的六分之一。故障發(fā)生后,用戶普遍擔(dān)心賬戶資金安全問題,亦有用戶反應(yīng)出現(xiàn)賬戶余額不同步的現(xiàn)象。

  螞蟻金服對此回應(yīng),支付寶有完善的技術(shù)和措施保護(hù)用戶的資金安全,支付寶中的任何一個(gè)交易,同時(shí)都會有多份記錄,數(shù)據(jù)可靠性極高。如果有用戶出現(xiàn)交易不同步的情況,后續(xù)都會得到妥善解決。

  這份螞蟻金服的官方回應(yīng)還指出,支付寶異地多活的系統(tǒng)架構(gòu)在此次意外中發(fā)揮了巨大作用:一方面,沒有因光纜被挖斷而影響全部用戶;另一方面,緊急將故障機(jī)房的流量切換至了其他機(jī)房。在當(dāng)晚7點(diǎn)支付寶服務(wù)恢復(fù)時(shí),被挖斷的光纜還沒有修復(fù)。

  螞蟻金服一位高管表示,大流量網(wǎng)站實(shí)時(shí)切換涉及資金時(shí)有難度,需要安全地將用戶的數(shù)據(jù),尤其是資金數(shù)據(jù)也切換到其它機(jī)房,所以切換操作需要花費(fèi)較多的時(shí)間。“技術(shù)上可以做到更快恢復(fù),之所以較慢是為了確保不丟數(shù)據(jù)。”

  螞蟻金服對于這次事故的內(nèi)部總結(jié)是,數(shù)據(jù)校驗(yàn)較多,怕丟數(shù)據(jù),所以花了較多時(shí)間。內(nèi)部認(rèn)為這是一次安全但不夠漂亮的災(zāi)備實(shí)戰(zhàn),就好比跳水,起跳不錯(cuò),空中動作也還行,但入水壓水花不夠好。

  據(jù)了解,支付寶采用異地雙活的系統(tǒng)架構(gòu),的確有多個(gè)機(jī)房。正因?yàn)槿绱,本次支付寶杭州機(jī)房網(wǎng)絡(luò)中斷,只影響了一個(gè)機(jī)房,其它機(jī)房的業(yè)務(wù)不受影響。

  但這依然受到外界質(zhì)疑。質(zhì)疑焦點(diǎn)有二:一是恢復(fù)時(shí)間竟然長達(dá)兩個(gè)小時(shí);二是究竟是出于資金安全考慮而主動放緩速度還是支付寶應(yīng)急預(yù)案出現(xiàn)漏洞?

  一位國有大型銀行內(nèi)部人士表示,如果在銀行的支付系統(tǒng)發(fā)生大面積癱瘓超過2個(gè)小時(shí),已經(jīng)屬于重大安全事故,很有可能要向國務(wù)院匯報(bào)備案。

  他強(qiáng)調(diào),傳統(tǒng)金融機(jī)構(gòu)發(fā)生這樣波及全國范圍的安全問題幾率微乎其微,原因在于銀行涉及用戶資金的重要系統(tǒng)災(zāi)備方案十分完備,一般是“兩地三中心”云備份方案,保證“同城災(zāi)備結(jié)合異地災(zāi)備”,目的在于防止重大災(zāi)難或戰(zhàn)爭等極端情況。

  上述國有大型銀行內(nèi)部人士認(rèn)為,正因?yàn)榇耍绻y行系統(tǒng)出現(xiàn)支付寶因光纜被挖斷而導(dǎo)致一個(gè)數(shù)據(jù)中心停擺的情況,用戶流量和系統(tǒng)會向同城或異地其他數(shù)據(jù)中心切換。“就算不會是即時(shí)切換,也不會花費(fèi)太長時(shí)間,同城可能會更快,就是用戶根本感受不到延遲。”

  這一說法得到多位電信技術(shù)人士的支持。中國電信的一位技術(shù)高層人士分析,服務(wù)故障切換機(jī)制應(yīng)該是自動的,根據(jù)一定的事先設(shè)置的策略,無需人為干預(yù),人工可以在服務(wù)切換后,再重新定義流量疏導(dǎo)方式。

  該人士稱,支付寶多中心制的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),不同于普通用戶接入光纜寬帶服務(wù),不可能只是用一個(gè)區(qū)域性的小機(jī)房,一根光纜被挖斷了就斷服務(wù)了。支付寶機(jī)房服務(wù)的路由應(yīng)該非常多,不可能只接一家運(yùn)營商,即便只是一家,肯定也是多路由接入。“數(shù)據(jù)路由就像供電,來自不同的變壓器和能原地。”

  一位曾在湯森路透工作的阿里巴巴程序員表示,湯森路透號稱世界最大金融網(wǎng)絡(luò),處理全球?qū)崟r(shí)金融數(shù)據(jù),要求不能宕機(jī),哪怕自然災(zāi)害或戰(zhàn)爭。他們機(jī)房這樣建的:兩條不同電信公司的光纜和不同電力公司的電纜分別從機(jī)房的兩個(gè)方向進(jìn)入,同一個(gè)機(jī)房的所有系統(tǒng)實(shí)時(shí)雙備份,并建設(shè)兩個(gè)不同城市(巴黎、日內(nèi)瓦)機(jī)房同時(shí)實(shí)時(shí)處理相同的數(shù)據(jù)。

  某大型國企網(wǎng)絡(luò)運(yùn)維人員稱,從技術(shù)角度看,支付寶此次事故可能是內(nèi)部應(yīng)用模塊出了問題,未經(jīng)嚴(yán)格驗(yàn)證的應(yīng)用被統(tǒng)一升級后,被意外觸發(fā)到未知狀態(tài),會導(dǎo)致此類問題。

  上述運(yùn)維人員還表示,經(jīng)他觀察,支付寶DBA(數(shù)據(jù)管理人員)緊急恢復(fù)了RPO=10days的完整數(shù)據(jù)(RPO,Recovery Point Objective,復(fù)原點(diǎn)目標(biāo),是指當(dāng)服務(wù)恢復(fù)后,恢復(fù)得來的數(shù)據(jù)所對應(yīng)時(shí)間點(diǎn),理想的狀態(tài)是RPO=0,故障出現(xiàn)立即恢復(fù),但需要極大投入),并不停地進(jìn)行分段增量數(shù)據(jù)恢復(fù),歷時(shí)約2小時(shí)余,這就是應(yīng)用模塊的問題。

  上述中國電信技術(shù)人士則分析認(rèn)為,出現(xiàn)這種問題的可能性是,支付寶多個(gè)數(shù)據(jù)中心之間的自動流量切換機(jī)制出現(xiàn)問題,只能人工介入。還可能是其他三種原因:一是很有可能是支付寶遭到了攻擊;二是支付寶的路由配置癱瘓了;三是支付寶的云服務(wù)器癱瘓了,亞馬遜也出現(xiàn)過這個(gè)問題。號稱最先進(jìn)最安全的阿里云系統(tǒng)對自家業(yè)務(wù)并沒支撐好。

  就以上相關(guān)問題,螞蟻金服回應(yīng)稱,具體的技術(shù)分析正在加緊進(jìn)行,但得出結(jié)論判斷還需要一段時(shí)間。

  微妙的是,在螞蟻金服更早的一份媒體回應(yīng)中稱,之所以花費(fèi)較長時(shí)間,是在流量向支付寶位于深圳的數(shù)據(jù)中心遷移的時(shí)候,切換系統(tǒng)也受到了光纖斷裂的影響,所以切換上花費(fèi)了一些時(shí)間。這與“技術(shù)上他們可以做到更快恢復(fù),之所以較慢是為了確保不丟數(shù)據(jù)”這一說法并不一致。

  另有行業(yè)人士評價(jià),此次事件反應(yīng)出支付寶在故障倒換能力和應(yīng)急反應(yīng)速度上還有待提高,反應(yīng)出互聯(lián)網(wǎng)公司在應(yīng)急處理能力上的普遍短板,互聯(lián)金融系統(tǒng)的運(yùn)行穩(wěn)定性并不如此前所宣稱那樣完善。在支付寶發(fā)生大面積癱瘓事故之后,互聯(lián)網(wǎng)企業(yè)的運(yùn)維人員建立微信群對此展開了討論。

  隨著云計(jì)算和大數(shù)據(jù)的逐步普及,以及人們在互聯(lián)網(wǎng)應(yīng)用越來越重的資產(chǎn)托付,IT技術(shù)領(lǐng)域普遍呼吁互聯(lián)網(wǎng)公司改變“盡力而為”的服務(wù)承諾和網(wǎng)絡(luò)架構(gòu),向傳統(tǒng)電信、IT領(lǐng)域高達(dá)99.999%的“5個(gè)9”安全級別靠攏。

  螞蟻金服表示,支付寶將不斷提升災(zāi)備切換速度,希望未來這樣的切換能讓用戶無感知或者最小化感知。

  對于此次事故帶來的具體損失額度,螞蟻金服表示,暫時(shí)無法統(tǒng)計(jì)。

相關(guān)閱讀:

分享到: 收藏

專題