發表于:2011-07-14 00:00:00來源:網易科技報道人氣:3510
11日下午2點到12日下午4點,藝龍旅游網出現了持續的訪問故障。據了解,該事件最初是EMC存儲設備出現故障,而由于藝龍網的存儲結構不完善導致長時間無法修復。
此次事件在互聯網行業的系統架構領域引發了很多的討論,藝龍因為這次宕機事件,其網站服務和呼叫中心業務也無法進行,據一些媒體計算,藝龍網這次直接損失超過14.7萬營業收入,而其對客戶造成的潛在影響無法估計。
EMC存儲出現問題引發連鎖反應
11日下午,不斷有網友反應藝龍網訪問出現錯誤,很快,官方就出現了“系統故障,正在修復中……”的提示。對于這家以網站和呼叫中心為主要經營窗口的企業來說,此故障直接影響到業務運營。
12日早上8點,藝龍CEO崔廣福表示,藝龍的存儲系統出現故障,導致全部服務中斷,崔廣福稱藝龍和EMC的工程師已搶修18個小時。
至此,不少目光集中在EMC公司上,藝龍網使用的存儲產品由EMC提供,據接近現場人士透露,此次宕機也的確是存儲硬件出現問題,導致數據庫掛機,系統恢復需要較長時間造成。
12日下午呼叫中心恢復機票服務,網站服務等在4點開始恢復,到18點全部業務恢復運營。
備份架構不完善導致維修時間較長
對于藝龍網這次出現問題的原因一時眾說紛紜,在不少人認為EMC硬件出現問題時,一些企業技術架構人員開始聲援EMC。
丁香園網站CTO馮大輝在微博表示,EMC的產品不會持續到幾十個小時恢復不了,而一位網友也提到,“做為EMC的競爭對手也不得不說,這不只是硬件的問題”。
IT服務公司中達金橋的孫巍表示,他在12日到現場參與系統恢復。從他的復述中得知,EMC存儲硬件出現故障引發了整個事件,而由于藝龍對數據庫的備份不足,存儲層沒有災備方案,導致系統恢復緩慢,雖然硬件很快恢復正常,系統仍然無法工作。
據深入介紹,企業在運營平臺的系統設備架構中,為了應對突發硬件、軟件故障,一般需要對各個層級的系統進行備份,比如在服務器端使用雙機熱備,在存儲層完成災備,在軟件層做冗余工作。這樣任何一個環節出現問題都可以及時找到替代。
而在藝龍的事件中,藝龍的存儲架構只預備了高性能架構的集群備份,災備的準備依賴唯一的存儲硬件,軟件層也缺少冗余準備,這樣存儲出現問題,事先準備的災備準備也就不起作用。
“把所有雞蛋都放在一個籃子里,籃子出了問題,雞蛋就全碎了。”孫巍這么形容。
存儲行業的一些廠商人士在微博上紛紛表示,硬件不可能保證100%數據安全,要硬件保證不出現問題是不可能的,企業需要在架構上減少硬件出錯對企業運營的影響。
到截稿為止,藝龍和EMC并沒有回復關于此事技術過程的疑問。
藝龍再次停機升級或為加強存儲系統
14日凌晨,藝龍網再次宣布停止運營7個小時,以實現系統升級。此前崔廣福在微博上發出“英雄帖”,邀請咨詢師、方案服務提供商、專家等為藝龍數據中心系統構架、災備方案及運維管理會診。這也說明藝龍對此次事件的重視。
業界人士認為,對于一個在線服務提供商,時刻在線和穩定性成為消費者一種信賴和依靠,而出現系統完全停止服務將對客戶感受造成較大的影響。
據存儲技術人士透露,主要的容災技術結構已經完善,各個單位采用不同的架構主要原因還是因為成本問題。
也有人認為,這次的事件對于災備行業來說將是一次促進,企業和政府單位在認識到意外發生的結果后會加大數據系統的投入。(王杰聰)