隨著數位化發展逐漸普及,許多企業與政府單位已將服務部署於雲端,不過當雲端基礎建設出了問題,實是牽一髮動全身,影響範圍十分廣大。

亞馬遜雲端服務(Amazon Web Service,AWS)是目前全球雲端服務龍頭,市佔率達 33%,比微軟(20%)與 Google(10%)加起來還要高 ,更是亞馬遜最賺錢的部門,旗下共有 200 多項服務和解決方案,涵蓋運算、儲存、資料庫、機器學習等領域。全球有多個企業與政府單位採用其服務。然而,最近 AWS 短期內在美國發生兩次大規模當機,造成眾多業務與服務停擺。

災難性的大當機事件,各行各業都受到影響

短短兩週內,AWS 已在美國發生兩起大當機事件。先是於 12 月 7 日在美國東部爆發,約 9 個小時後才完全恢復,15 日當機事件又在美國西部再度發生,影響範圍不僅包括亞馬遜自家電商與物流業務,也涵蓋了各行各業的客戶。

這兩起當機事件再次突顯出當前多項經濟活動開始上雲,卻僅依賴少數供應商的問題,一旦有所差錯,後果可能甚為嚴峻。

在 12 月 7 日美國東部的大當機事件中,首當其衝的是亞馬遜自家的倉儲與物流業務。根據《Business Insider》報導,在太平洋西北地區的一個亞馬遜倉庫中,當機導致「任何使用電腦的東西」都無法運行,「我們所能做的就是等待,」一名亞馬遜員工說。

與亞馬遜合作的物流企業 West Coast Delivery 表示,美國東海岸的許多司機在當機前裝載了貨車並開始送貨,但在東部時間中午左右出現故障時,他們無法得知送貨路線、也不能掃描包裹,不得不先將車停在路邊。尤其時值年末節慶時期,影響到大量貨物的配送。

而亞馬遜旗下服務包括電商、串流影音 Prime Video、語音助理 Alexa 等,也都因為 AWS 當機暫時無法使用。

Amazon
圖片來源:

不僅是亞馬遜本身,各行各業也遭到波及,如線上券商 Robinhood 的服務被迫暫停;達美航空顧客無法預訂或更改行程;美聯社無法發布新聞報導;線上教學平台 Canvas,以及線上監考功能 Respondus LockDown Browser 服務中斷,讓許多學生的期末考無法順利進行;從社群平台 Facebook 與串流平台 Netflix、Disney+,到智慧家居的 Ring 安全攝影機、iRobot 智慧吸塵器,及自動貓砂盆皆無法使用。

至於 12 月 15 日美西的當機事件,雖不如前次事件嚴重,僅持續了一個多小時,不過根據監測各網站狀況的 Downdetector 資訊指出,包括 Netflix 、團隊通訊軟體 Slack、外送平台 Doordash、Sony 旗下媒體娛樂服務 Playstation Network 皆有用戶回報異常,亞馬遜的電商網站及直播平台 Twitch 似乎也受到了影響。

雲端服務大當機日趨頻繁,或應分散風險

對於 12 月 7 日的當機事件,亞馬遜的報告表示,起因是 AWS 主網路中的自動化容量擴充服務出現錯誤,使內部網路的客戶端和 AWS 主網路之間產生延遲。該錯誤讓亞馬遜團隊無法使用即時監控系統及進行內部控制,而亞馬遜的技術支援中心也運行於 AWS,導致其用戶無法盡快回報問題,種種原因使得該次當機歷時數小時才得以排除。

亞馬遜表示,正在努力改進對當機事件的應對,計劃於明年初發布新版本的服務健康儀表板(Service Health Dashboard),並會推出新的技術支援服務架構,幫助客戶在當機發生時及時收到通知、有效尋求技術支援協助。

近年網路服務當機事件頻傳,由單點故障導致廣泛且長時間的當機,似乎愈來愈普遍。

如雲端供應商 Fastly 於今年 6 月 8 日早上因系統更新失誤,導致英國政府入口網站、金融時報、紐約時報、彭博社、Spotify、Twitter、PayPal 等大型網站,突然接連斷線約一小時,連帶美股期指也一度下跌。

Facebook
圖片來源:

社群平台龍頭 Facebook (現 Meta 集團)亦在今年 10 月,遭遇自 2008 年以來最嚴重的全球大當機,不僅旗下 Facebook、Instagram、WhatsApp 頁面無法使用,以 Facebook 帳號登入的其他應用程式與網站也中斷服務,對許多仰賴社群投放廣告的業者影響巨大。

事實上,此次事件的主角亞馬遜 AWS 在 2020 年 11 月便曾經歷一次當機,當時一項名為 Kinesis 的服務出現問題,導致許多網站癱瘓。今年的大當機波及層面更廣,影響了各種形式和規模的企業。

網路情報公司 Kentik 分析主管 Doug Madory 指出,該公司發現當機時 Netflix 的流量下降了 26%,他認為,沒有理由懷疑當機是由惡意活動所引起,不過最近發生的一系列當機事件反映了現今網路產業變得多麼複雜。「愈來愈多的當機,是自動化和管理集中化的產物,」Doug Madory 說,營運層面的複雜,導致故障與當機難以完全避免,但一旦發生,就會產生非常大的影響。

技術專家與公共數據訪問活動家 Carl Malamud 持相似觀點,他指出,網際網路最初被設計為一個分佈式和去中心化的網絡,旨在遇上大規模災難時得以存續,然而「當我們把所有東西都放在一個地方時,無論是亞馬遜的雲端還是 Facebook ,都違反了這一個基本原則」,他表示:「之前我們看到 Facebook 成為散佈大量錯假資訊的工具,今天我們看到了亞馬遜的失敗。」

全面雲端基礎建設的使用,實是有將雞蛋全放在同個籃子的隱憂,當基礎建設出狀況,會如同骨牌效應讓大量服務中斷。而多雲(multicloud)或為一種解方,例如近日 IPO 的雲端新創 HashiCorp,協助客戶於 AWS、微軟、Google 分散部署資源、跨雲工作,提升彈性和可靠性,避免大量仰賴單一雲端提供商的風險。

資料來源:CNBC(1)ABC NewsBusiness InsiderGuardianTechradarCNBC(2)

分享