關鍵科技

亞馬遜 AWS 兩週內二度當機！多項服務停擺，浮現雞蛋全放在同個籃子的隱憂

2021/12/17

by 孫嘉君

Marques Thomas on Unsplash

HOT! 熱門文章

隨著數位化發展逐漸普及，許多企業與政府單位已將服務部署於雲端，不過當雲端基礎建設出了問題，實是牽一髮動全身，影響範圍十分廣大。

亞馬遜雲端服務（Amazon Web Service，AWS）是目前全球雲端服務龍頭，市佔率達 33%，比微軟（20%）與 Google（10%）加起來還要高，更是亞馬遜最賺錢的部門，旗下共有 200 多項服務和解決方案，涵蓋運算、儲存、資料庫、機器學習等領域。全球有多個企業與政府單位採用其服務。然而，最近 AWS 短期內在美國發生兩次大規模當機，造成眾多業務與服務停擺。

災難性的大當機事件，各行各業都受到影響

短短兩週內，AWS 已在美國發生兩起大當機事件。先是於 12 月 7 日在美國東部爆發，約 9 個小時後才完全恢復，15 日當機事件又在美國西部再度發生，影響範圍不僅包括亞馬遜自家電商與物流業務，也涵蓋了各行各業的客戶。

這兩起當機事件再次突顯出當前多項經濟活動開始上雲，卻僅依賴少數供應商的問題，一旦有所差錯，後果可能甚為嚴峻。

在 12 月 7 日美國東部的大當機事件中，首當其衝的是亞馬遜自家的倉儲與物流業務。根據《Business Insider》報導，在太平洋西北地區的一個亞馬遜倉庫中，當機導致「任何使用電腦的東西」都無法運行，「我們所能做的就是等待，」一名亞馬遜員工說。

與亞馬遜合作的物流企業 West Coast Delivery 表示，美國東海岸的許多司機在當機前裝載了貨車並開始送貨，但在東部時間中午左右出現故障時，他們無法得知送貨路線、也不能掃描包裹，不得不先將車停在路邊。尤其時值年末節慶時期，影響到大量貨物的配送。

而亞馬遜旗下服務包括電商、串流影音 Prime Video、語音助理 Alexa 等，也都因為 AWS 當機暫時無法使用。

不僅是亞馬遜本身，各行各業也遭到波及，如線上券商 Robinhood 的服務被迫暫停；達美航空顧客無法預訂或更改行程；美聯社無法發布新聞報導；線上教學平台 Canvas，以及線上監考功能 Respondus LockDown Browser 服務中斷，讓許多學生的期末考無法順利進行；從社群平台 Facebook 與串流平台 Netflix、Disney+，到智慧家居的 Ring 安全攝影機、iRobot 智慧吸塵器，及自動貓砂盆皆無法使用。

至於 12 月 15 日美西的當機事件，雖不如前次事件嚴重，僅持續了一個多小時，不過根據監測各網站狀況的 Downdetector 資訊指出，包括 Netflix 、團隊通訊軟體 Slack、外送平台 Doordash、Sony 旗下媒體娛樂服務 Playstation Network 皆有用戶回報異常，亞馬遜的電商網站及直播平台 Twitch 似乎也受到了影響。

雲端服務大當機日趨頻繁，或應分散風險

對於 12 月 7 日的當機事件，亞馬遜的報告表示，起因是 AWS 主網路中的自動化容量擴充服務出現錯誤，使內部網路的客戶端和 AWS 主網路之間產生延遲。該錯誤讓亞馬遜團隊無法使用即時監控系統及進行內部控制，而亞馬遜的技術支援中心也運行於 AWS，導致其用戶無法盡快回報問題，種種原因使得該次當機歷時數小時才得以排除。

亞馬遜表示，正在努力改進對當機事件的應對，計劃於明年初發布新版本的服務健康儀表板（Service Health Dashboard），並會推出新的技術支援服務架構，幫助客戶在當機發生時及時收到通知、有效尋求技術支援協助。

近年網路服務當機事件頻傳，由單點故障導致廣泛且長時間的當機，似乎愈來愈普遍。

如雲端供應商 Fastly 於今年 6 月 8 日早上因系統更新失誤，導致英國政府入口網站、金融時報、紐約時報、彭博社、Spotify、Twitter、PayPal 等大型網站，突然接連斷線約一小時，連帶美股期指也一度下跌。

社群平台龍頭 Facebook （現 Meta 集團）亦在今年 10 月，遭遇自 2008 年以來最嚴重的全球大當機，不僅旗下 Facebook、Instagram、WhatsApp 頁面無法使用，以 Facebook 帳號登入的其他應用程式與網站也中斷服務，對許多仰賴社群投放廣告的業者影響巨大。

事實上，此次事件的主角亞馬遜 AWS 在 2020 年 11 月便曾經歷一次當機，當時一項名為 Kinesis 的服務出現問題，導致許多網站癱瘓。今年的大當機波及層面更廣，影響了各種形式和規模的企業。

網路情報公司 Kentik 分析主管 Doug Madory 指出，該公司發現當機時 Netflix 的流量下降了 26%，他認為，沒有理由懷疑當機是由惡意活動所引起，不過最近發生的一系列當機事件反映了現今網路產業變得多麼複雜。「愈來愈多的當機，是自動化和管理集中化的產物，」Doug Madory 說，營運層面的複雜，導致故障與當機難以完全避免，但一旦發生，就會產生非常大的影響。

技術專家與公共數據訪問活動家 Carl Malamud 持相似觀點，他指出，網際網路最初被設計為一個分佈式和去中心化的網絡，旨在遇上大規模災難時得以存續，然而「當我們把所有東西都放在一個地方時，無論是亞馬遜的雲端還是 Facebook ，都違反了這一個基本原則」，他表示：「之前我們看到 Facebook 成為散佈大量錯假資訊的工具，今天我們看到了亞馬遜的失敗。」

全面雲端基礎建設的使用，實是有將雞蛋全放在同個籃子的隱憂，當基礎建設出狀況，會如同骨牌效應讓大量服務中斷。而多雲（multicloud）或為一種解方，例如近日 IPO 的雲端新創 HashiCorp，協助客戶於 AWS、微軟、Google 分散部署資源、跨雲工作，提升彈性和可靠性，避免大量仰賴單一雲端提供商的風險。

資料來源：CNBC(1)、ABC News、Business Insider、Guardian、Techradar、CNBC(2)

#雲端服務