昨日上(shang)午10點47分(fen),阿(a)里云(yun)(yun)發布公告稱(cheng),阿(a)里云(yun)(yun)監控(kong)發現香港地(di)域某機房設備異常(chang),影響香港地(di)域可(ke)用區C的云(yun)(yun)服務(wu)器ECS、云(yun)(yun)數(shu)據庫PolarDB等云(yun)(yun)產品使用,工程師(shi)已(yi)在緊急處理(li)中。阿(a)里云(yun)(yun)稱(cheng),這一(yi)故障也影響了香港地(di)域控(kong)制臺訪問和(he)API調用操作,阿(a)里云(yun)(yun)工程師(shi)昨日一(yi)直(zhi)在配合PCCW機房工程師(shi)加速處理(li)。截(jie)至目前,與(yu)該故障相(xiang)關的官方網站和(he)APP均可(ke)正常(chang)訪問。
受此故(gu)障影(ying)響(xiang),昨日(ri)(ri)澳門司(si)法警察局(ju)官(guan)微發(fa)布消息稱,“由于阿里(li)云(yun)的(de)香港機房節(jie)點發(fa)生故(gu)障,導(dao)致(zhi)澳門金(jin)融管理局(ju)、澳門銀(yin)河、蓮花衛視(shi)、澳門水(shui)泥廠等(deng)關鍵基礎設(she)施營運(yun)(yun)者(zhe)的(de)網站、澳覓和(he)MFood等(deng)外(wai)賣(mai)平臺、以及澳門日(ri)(ri)報(bao)等(deng)本(ben)地(di)傳媒應用程(cheng)式,自今(jin)天(18日(ri)(ri))中(zhong)午開始暫時無法訪(fang)問使用 ”。不僅如此, 甚至Linux中(zhong)國的(de)官(guan)網也(ye)因此而(er)無法訪(fang)問,很多個人站長也(ye)表示阿里(li)云(yun)的(de)長時間故(gu)障影(ying)響(xiang)了他們網站的(de)運(yun)(yun)營。
除此(ci)之外,此(ci)次(ci)故(gu)(gu)障對于“幣(bi)圈”影響也頗為(wei)嚴重。知名(ming)交易平(ping)臺(tai)“Gate.io”發(fa)布公告表示(shi),受(shou)運營(ying)商部分網絡節點維護影響,充提服務(wu)將出現(xian)延緩(huan)。而知名(ming)加(jia)密貨幣(bi)交易所(suo)OKX(歐易)則在18日(ri)上(shang)午11:00至19日(ri)上(shang)午02:50期間(jian)交易服務(wu)中(zhong)斷了(le)數個小時(shi),直(zhi)接(jie)關停了(le)所(suo)有用戶的(de)交易并限制提幣(bi),此(ci)舉(ju)還導致了(le)部分OKX用戶的(de)加(jia)密資(zi)(zi)產(chan)顯示(shi)為(wei)0,一度引(yin)發(fa)該平(ping)臺(tai)用戶的(de)擔憂。可想而知,此(ci)次(ci)故(gu)(gu)障將會對交易所(suo)上(shang)的(de)投資(zi)(zi)者信(xin)心產(chan)生(sheng)不可估(gu)量的(de)打擊(ji)。
據零(ling)壹(yi)智庫(ku)的(de)不完全統計,自2010年(nian)以來,混合云(yun)(yun)(yun)上市(shi)公司青云(yun)(yun)(yun)QingCloud發(fa)生(sheng)(sheng)(sheng)過(guo)約(yue)(yue)4次(ci)(ci)故(gu)障(zhang)(zhang)宕機(ji)事(shi)(shi)(shi)件,阿里云(yun)(yun)(yun)發(fa)生(sheng)(sheng)(sheng)過(guo)約(yue)(yue)5次(ci)(ci)故(gu)障(zhang)(zhang)宕機(ji)事(shi)(shi)(shi)件,騰(teng)訊云(yun)(yun)(yun)發(fa)生(sheng)(sheng)(sheng)過(guo)約(yue)(yue)8次(ci)(ci)故(gu)障(zhang)(zhang)宕機(ji)事(shi)(shi)(shi)件。其(qi)中(zhong),阿里云(yun)(yun)(yun)、騰(teng)訊云(yun)(yun)(yun)所(suo)發(fa)生(sheng)(sheng)(sheng)的(de)故(gu)障(zhang)(zhang)大(da)多(duo)發(fa)生(sheng)(sheng)(sheng)2018-2019年(nian)間——即盡管云(yun)(yun)(yun)服務已經進入技術較為成熟的(de)階段,但仍有較大(da)概率發(fa)生(sheng)(sheng)(sheng)宕機(ji)事(shi)(shi)(shi)件。從(cong)全球范圍來看(kan),自2010年(nian)以來,亞馬遜云(yun)(yun)(yun)科技AWS發(fa)生(sheng)(sheng)(sheng)過(guo)約(yue)(yue)22次(ci)(ci)故(gu)障(zhang)(zhang)宕機(ji)事(shi)(shi)(shi)件,谷歌云(yun)(yun)(yun)計算平臺發(fa)生(sheng)(sheng)(sheng)過(guo)約(yue)(yue)12次(ci)(ci)故(gu)障(zhang)(zhang)宕機(ji)事(shi)(shi)(shi)件,微軟Azure發(fa)生(sheng)(sheng)(sheng)過(guo)約(yue)(yue)8次(ci)(ci)故(gu)障(zhang)(zhang)宕機(ji)事(shi)(shi)(shi)件。
在(zai)已知發(fa)生的云服(fu)(fu)務故障修(xiu)復(fu)中,修(xiu)復(fu)時(shi)間在(zai)短至40秒(miao)長至24小時(shi)不(bu)等。而作為(wei)一家具備(bei)雄厚技術實力的云服(fu)(fu)務商(shang),阿里云出現如此長時(shi)間的持(chi)續(xu)性服(fu)(fu)務故障,在(zai)業界也(ye)屬于相(xiang)當罕見(jian)的事件(jian),OKGroup的創始人徐明星甚(shen)至把此次故障稱為(wei)“阿里云發(fa)展史上重大丑聞”。
當(dang)前,使用云服(fu)務的大多都是提供(gong)各種(zhong)服(fu)務的APP和網站客戶(hu)(hu),試想一下,如(ru)果用戶(hu)(hu)在點外(wai)賣時(shi)無法(fa)(fa)下單或在刷短視(shi)頻無法(fa)(fa)播放,都將嚴重影響(xiang)用戶(hu)(hu)體(ti)驗(yan)。還(huan)有測試結果表(biao)明(ming),大多數用戶(hu)(hu)打(da)開網頁等待時(shi)間(jian)的忍耐(nai)度是在2秒(miao)鐘之(zhi)內(nei),最長不超(chao)過8秒(miao),如(ru)果故障出現的時(shi)間(jian)比較(jiao)久,用戶(hu)(hu)便會關(guan)閉網頁和APP,給企業(ye)帶來不同程度的用戶(hu)(hu)流失。
對此(ci),為(wei)了衡量(liang)云服(fu)務(wu)商提供的服(fu)務(wu)質量(liang)和(he)系(xi)統(tong)的穩定性,就必須設定一個統(tong)一標準,SLA也為(wei)此(ci)應運而生。
其中,SLA是(shi)服(fu)務等級協議Service-Level Agreement的(de)縮(suo)寫,指的(de)是(shi)服(fu)務提供商與(yu)客戶(hu)之間(jian)就服(fu)務質量(liang)所達成(cheng)的(de)雙(shuang)方共同(tong)認可的(de)協議,它表明了公有云提供服(fu)務的(de)等級以及質量(liang),也是(shi)云服(fu)務商對(dui)產品服(fu)務能力的(de)保障(zhang),云服(fu)務商及其產品團隊(dui)一個很重要(yao)的(de)目標就是(shi)圍繞這(zhe)些SLA來進行產品設計和(he)運維保障(zhang)。
舉例來說,假設是(shi)月度(du)99.95%的(de)(de)SLA,按照(zhao)每月30天(tian)計算(suan),則每個月云服(fu)務出(chu)現故障的(de)(de)時間只能占總(zong)時間的(de)(de) 0.05%,即每月最(zui)多存(cun)在(zai)30天(tian)×24小時×60分鐘(zhong)×(100%-99.95%)=21.6分鐘(zhong)的(de)(de)不可用(yong)時間。如果提(ti)升(sheng)到99.995%,則每個月服(fu)務的(de)(de)不可用(yong)時間是(shi)2.16分鐘(zhong),不可用(yong)時間大幅(fu)縮短,也意味著云服(fu)務器的(de)(de)穩定性(xing)大幅(fu)提(ti)升(sheng)。
近期,阿(a)(a)里云(yun)(yun)還公布(bu)了(le)最新(xin)的云(yun)(yun)服務(wu)(wu)(wu)器ECS服務(wu)(wu)(wu)等級協議(yi)SLA,單實(shi)例(li)的可用性(xing)從99.95%提(ti)(ti)升(sheng)至(zhi)99.975%,多可用區(qu)多實(shi)例(li)可用性(xing)從99.99%提(ti)(ti)升(sheng)至(zhi)99.995%,均為全球最高水準。這一簡單的數字變化背后,是過(guo)去(qu)十年阿(a)(a)里云(yun)(yun)為云(yun)(yun)計算穩定(ding)(ding)性(xing)做出的努力(li),除了(le)升(sheng)級SLA之外(wai),阿(a)(a)里云(yun)(yun)還提(ti)(ti)供(gong)了(le)企(qi)業級云(yun)(yun)災備解決方案(an),為制造、金融、醫療等企(qi)業提(ti)(ti)供(gong)一鍵(jian)容(rong)災能力(li),例(li)如業務(wu)(wu)(wu)恢復、數據保護和網絡(luo)自愈等,最大程(cheng)度保護本地(di)和云(yun)(yun)上(shang)業務(wu)(wu)(wu)穩定(ding)(ding)運(yun)行(xing),而(er)此次香(xiang)港(gang)地(di)區(qu)超過(guo)12小時(shi)的服務(wu)(wu)(wu)故(gu)障(zhang),著實(shi)讓阿(a)(a)里云(yun)(yun)體驗了(le)一把打臉的感(gan)覺。
據阿(a)(a)里(li)(li)云官方公告表示,對于受本(ben)次故障影響的(de)產(chan)品,阿(a)(a)里(li)(li)云將根據相(xiang)關(guan)產(chan)品的(de)SLA協議(yi)進(jin)行賠(pei)付,下圖即(ji)是阿(a)(a)里(li)(li)云服(fu)(fu)務(wu)器ECS服(fu)(fu)務(wu)等級(ji)協議(yi)文(wen)檔中(zhong)有關(guan)賠(pei)償標(biao)準的(de)部分(fen):
如今,越來越多的(de)(de)企(qi)業(ye)在用云(yun)服(fu)務代替本(ben)地的(de)(de)數(shu)(shu)據中(zhong)(zhong)(zhong)心(xin)(xin),主要原因(yin)就是(shi)(shi)傳統的(de)(de)數(shu)(shu)據中(zhong)(zhong)(zhong)心(xin)(xin)難以(yi)達到云(yun)服(fu)務商保證的(de)(de)超高SLA。通常情況(kuang)下(xia),云(yun)廠商的(de)(de)SLA是(shi)(shi)線下(xia)數(shu)(shu)據中(zhong)(zhong)(zhong)心(xin)(xin)的(de)(de)5倍以(yi)上(shang),而云(yun)的(de)(de)成本(ben)則(ze)是(shi)(shi)線下(xia)數(shu)(shu)據中(zhong)(zhong)(zhong)心(xin)(xin)的(de)(de)幾(ji)分(fen)之一。也(ye)正是(shi)(shi)因(yin)為有(you)了相關(guan)的(de)(de)賠付承(cheng)諾,所以(yi)各大云(yun)服(fu)務提供商對于提升(sheng)SLA都非常謹慎,過度承(cheng)諾往(wang)往(wang)意味著(zhu)公司損失的(de)(de)概率提升(sheng)。
當然,完全避免云(yun)服(fu)務發生(sheng)故障是(shi)不可能(neng)完成(cheng)的(de)任務,但(dan)提前做好事前預(yu)案并及時(shi)(shi)通(tong)知客戶做好準(zhun)備,或(huo)許(xu)可以進(jin)一步降(jiang)低故障造成(cheng)的(de)影響。就像(xiang)歐易交易平臺(tai)(tai)所(suo)說,云(yun)服(fu)務用戶也不能(neng)對(dui)于(yu)單(dan)個云(yun)服(fu)務廠商過度依賴,可以快(kuai)速推進(jin)多(duo)云(yun)戰(zhan)略,確保(bao)核心服(fu)務部(bu)署(shu)在(zai)多(duo)個云(yun)服(fu)務商,在(zai)單(dan)個云(yun)服(fu)務商平臺(tai)(tai)出現(xian)故障時(shi)(shi),可以快(kuai)速切換至其(qi)他平臺(tai)(tai),保(bao)證服(fu)務的(de)穩定性。
從成立的(de)第一天起,阿里云就在穩定性(xing)上進行了大量的(de)技術(shu)投(tou)入和建設,經過十多年的(de)技術(shu)探(tan)索(suo),阿里云已經推出了基于(yu)自研的(de)飛天大規(gui)模操作系統自研服務器、網絡、存儲、智能(neng)調度等技術(shu),不(bu)僅大幅提(ti)升了系統的(de)穩定性(xing),還(huan)可預(yu)測感(gan)知系統異(yi)常(chang),運用熱遷移等技術(shu)保障客戶(hu)業(ye)務不(bu)受影響,最終實現了超高的(de)SLA標準。
目前(qian),阿(a)里(li)云(yun)(yun)(yun)(yun)(yun)已經(jing)是國內(nei)(nei)公(gong)有云(yun)(yun)(yun)(yun)(yun)行業(ye)的(de)第(di)一。在(zai)當前(qian)的(de)中國公(gong)有云(yun)(yun)(yun)(yun)(yun)服務市場(chang)(chang)中,雖然(ran)天翼云(yun)(yun)(yun)(yun)(yun)、浪(lang)潮云(yun)(yun)(yun)(yun)(yun)、金山云(yun)(yun)(yun)(yun)(yun)、京東(dong)云(yun)(yun)(yun)(yun)(yun)等(deng)云(yun)(yun)(yun)(yun)(yun)廠商的(de)名(ming)字也有所耳聞,但阿(a)里(li)云(yun)(yun)(yun)(yun)(yun)、騰訊云(yun)(yun)(yun)(yun)(yun)、華為云(yun)(yun)(yun)(yun)(yun)和百度智能云(yun)(yun)(yun)(yun)(yun)是知名(ming)的(de)國產“四朵(duo)云(yun)(yun)(yun)(yun)(yun)”,共同占據了國內(nei)(nei)云(yun)(yun)(yun)(yun)(yun)服務的(de)大(da)半江山。從全球市場(chang)(chang)來看,阿(a)里(li)云(yun)(yun)(yun)(yun)(yun)在(zai)全球市場(chang)(chang)排名(ming)第(di)三(san),在(zai)全球28個地域運營了86個可用區,同時也是亞(ya)太(tai)市場(chang)(chang)基(ji)礎設施規模最(zui)大(da)的(de)云(yun)(yun)(yun)(yun)(yun)計算平臺(tai),超過了亞(ya)馬(ma)遜云(yun)(yun)(yun)(yun)(yun)科(ke)技(ji)和微軟。過去(qu)三(san)年,阿(a)里(li)云(yun)(yun)(yun)(yun)(yun)在(zai)海外市場(chang)(chang)營收增長更是超過了10倍。
不僅如此(ci),今年(nian)阿(a)里云(yun)(yun)還首次實(shi)(shi)現了年(nian)度(du)盈(ying)利(li)(li)。據阿(a)里巴巴于(yu)今年(nian)5月發布的2022年(nian)財報顯示,其云(yun)(yun)業務(wu)同比增長23%,全年(nian)收入在抵銷跨分部交易前和抵銷后分別(bie)為1001.8億元(yuan)和745.68億元(yuan),實(shi)(shi)現盈(ying)利(li)(li)11.46億元(yuan)。這不僅是阿(a)里云(yun)(yun)成立(li)13年(nian)以來(lai)首次實(shi)(shi)現年(nian)度(du)盈(ying)利(li)(li),而且也成為國內首家實(shi)(shi)現持續盈(ying)利(li)(li)的云(yun)(yun)計算(suan)公司。
不過,在盈(ying)利的(de)(de)背后,阿里(li)云(yun)(yun)(yun)也面臨著(zhu)云(yun)(yun)(yun)計算(suan)市場(chang)的(de)(de)增(zeng)速放緩難(nan)題。根據Canalys公布的(de)(de)數據顯(xian)示,在今年(nian)第(di)三季度,國內云(yun)(yun)(yun)基礎(chu)設施服(fu)(fu)務支(zhi)出同比增(zeng)長8%達(da)到78億(yi)美元,占(zhan)全球云(yun)(yun)(yun)支(zhi)出的(de)(de)12%。自(zi)2022年(nian)第(di)一季度以來,年(nian)增(zeng)長率已經(jing)連續三個季度放緩,并首(shou)次跌破10% 。究其(qi)原因(yin),大(da)概是(shi)對云(yun)(yun)(yun)服(fu)(fu)務需求更高的(de)(de)互(hu)聯網行(xing)業大(da)中(zhong)型客戶已經(jing)基本完(wan)成布局,而現(xian)在的(de)(de)云(yun)(yun)(yun)計算(suan)不僅需要深入各(ge)(ge)行(xing)各(ge)(ge)業,還(huan)要完(wan)成市場(chang)教育和前沿(yan)技術的(de)(de)研(yan)發難(nan)題。
寫在最后
雖然云服務出(chu)現故障(zhang)時有發生(sheng),但相比傳(chuan)統的本地服務,云服務發生(sheng)故障(zhang)的概率已(yi)經大大降低。而(er)且隨著(zhu)技術的不斷完善,云服務還將(jiang)在更多場(chang)景(jing)中發揮獨一無二(er)的作(zuo)用(yong)。
對于云(yun)服務來說,發生故障的原因(yin)(yin)不僅與技術有關,還可(ke)能(neng)受到技術處理能(neng)力、自然(ran)天氣、故障原因(yin)(yin)等多(duo)方(fang)面因(yin)(yin)素(su)的影(ying)響。盡管(guan)阿里(li)云(yun)在過(guo)去幾年取得(de)了長足的進(jin)步,但此次超(chao)過(guo)12小時的持續故障,也足以對云(yun)服務廠(chang)商敲響警鐘,作(zuo)為(wei)云(yun)服務平臺(tai),確(que)保平臺(tai)的安全、穩(wen)定(ding)運(yun)行,永遠是其最關鍵的工作(zuo)之(zhi)一。
參考資料:
1.《阿里云發生嚴重事(shi)故(gu),故(gu)障超12小時,張建鋒(feng)剛帶公司實(shi)現年度盈利》,子彈財觀(guan)
2.《阿(a)里云香港故障:發展史上新的“至暗時刻”》,IT時代網
3.《17次云巨頭(tou)故障事件梳理,云服務還(huan)可靠嗎?》,零壹(yi)財經