AWS美東數據中心DNS故障引發全球互聯網服務癱瘓:AI平台與金融系統遭重創
摘要
2025年10月20日,亞馬遜雲服務(AWS)美國東海岸數據中心發生大規模故障,導致全球數千個網站和應用程式服務中斷長達數小時。此次事件影響範圍廣泛,包括ChatGPT、Perplexity等AI平台、Robinhood和Venmo等金融服務,以及Snapchat、Signal等社交應用。故障源於AWS美東一區(US-EAST-1)的DNS解析問題,全球累計收到超過650萬份故障報告。
2025年10月20日凌晨,全球最大的雲服務提供商亞馬遜雲服務(AWS)發生嚴重故障,造成網際網路大規模服務中斷。此次事件再次凸顯了現代數位基礎設施對單一雲服務商的過度依賴風險。
故障時間線與影響範圍
根據AWS健康儀表板顯示,故障首次報告於美東時間10月20日凌晨12:11(北京時間12:11),主要影響AWS位於北弗吉尼亞州的美東一區(US-EAST-1)數據中心。
故障初期,AWS確認其多個服務出現「顯著錯誤率」和延遲問題。美東時間凌晨1:26,公司證實問題與DynamoDB資料庫服務的DNS解析故障有關。DNS系統負責將網站域名轉換為IP位址,其故障導致大量應用程式無法正常連接到AWS託管的資料庫。
到美東時間上午3:35,AWS宣布已「完全緩解」核心DNS問題,但服務恢復工作持續到傍晚6點才基本完成。整個故障持續時間超過17小時,部分服務在下午時段仍出現間歇性問題。
AI服務與金融平台遭重創
此次故障對人工智慧服務造成顯著影響。OpenAI的ChatGPT出現單點登入(SSO)問題,用戶無法正常登入使用。AI搜尋引擎Perplexity的CEO Aravind Srinivas在社交平台X上確認:「Perplexity現在當機了,根本原因是AWS問題。我們正在努力解決。」
金融科技平台同樣遭受重大衝擊。行動支付應用程式Venmo、數位銀行Chime、加密貨幣交易所Coinbase以及股票交易平台Robinhood均報告服務中斷。英國多家銀行的客戶反映無法進行卡支付,蘇格蘭銀行在社交媒體上向客戶致歉。
社交、遊戲與教育領域全面受損
社交媒體和通訊應用程式大面積癱瘓。Snapchat用戶持續遭遇技術問題,加密通訊應用程式Signal的總裁Meredith Whittaker證實服務中斷與AWS故障有關。視訊會議平台Zoom、協作工具Slack、設計平台Canva均出現連接問題。
遊戲產業同樣未能倖免。熱門遊戲Fortnite、Roblox、Pokemon GO以及Epic Games商店均報告登入和連接故障。美國數千所大學和K-12學校使用的線上學習平台Canvas因故障無法存取,直到美東時間下午2:30仍顯示「AWS持續事件」警告,影響了學生提交作業和存取課程材料。
智能設備與企業服務停擺
亞馬遜自家的智能助手Alexa完全失去響應能力,用戶無法透過語音控制智能家居設備。Ring智能門鈴、Amazon Prime Video等服務也出現問題。紐約拉瓜迪亞機場的自助報到系統當機,導致乘客排起長隊。
英國政府網站包括稅務和海關總署(HMRC)以及政府官方網站均出現存取問題。網約車服務Lyft、外賣配送應用程式McDonald's以及約會軟體Hinge等數百項服務受到波及。
根據故障追蹤網站Downdetector數據,全球累計收到超過1100萬份故障報告,高峰時段單日報告數突破5萬份。
技術根源與恢復過程
AWS在後續更新中披露,故障的根本原因在於「負責監控網路負載平衡器健康狀況的底層內部子系統」出現問題。這一核心組件的失效觸發了連鎖反應,首先導致DynamoDB的DNS解析失敗,隨後影響到EC2(彈性計算雲)實例的啟動。
美東時間上午8:43,AWS表示已「縮小網路連接問題的根源範圍」。為避免進一步負載,公司對新EC2實例啟動請求實施了限流措施。恢復過程中,AWS逐步解除限流,但Lambda無伺服器計算平台積壓的請求佇列需要額外時間處理。
AWS在傍晚6點的最終更新中確認:「服務已恢復正常運行」,並表示EC2實例啟動限流已恢復到事件前水平。
業界反應與警示
網路安全專家Christian Espinosa指出:「這次影響AWS和英國主要平台的大規模故障,嚴厲提醒我們數位世界建立在驚人脆弱的基礎上。雲服務集中度——少數提供商託管大部分關鍵系統——製造了單點故障。當一個數據區域或提供商當機時,連鎖反應波及零售、金融、物流和通訊的一切領域。」
網際網路性能監控公司Catchpoint的CEO Mehdi Daoudi表示,此次故障的經濟損失尚待評估,但可能「極其巨大」。
特斯拉CEO伊隆·馬斯克在故障期間在X平台上發布嘲諷內容,強調其社交平台未受影響,並轉發諷刺亞馬遜創始人貝佐斯的表情符號。
AWS在全球雲端運算市場佔據約30%份額,與微軟Azure和Google Cloud形成三足鼎立格局。此次事件發生在AWS美東一區——該區域是全球網際網路流量的關鍵樞紐之一。分析師指出,許多企業未能充分實施跨區域或跨雲服務商的冗餘機制,導致單點故障影響放大。
這並非AWS首次在美東一區發生重大故障。2020年、2021年和2023年,該區域均曾發生導致大規模服務中斷的事件。
未來展望
此次故障預計將加速企業向多雲和混合雲策略轉型,以降低對單一雲服務商的依賴風險。業內人士預測,專門針對雲服務中斷的商業中斷保險可能會出現增長。
AWS方面表示將對事件進行全面調查,並承諾改進系統冗餘和故障恢復機制。截至美東時間10月20日晚間,所有服務已恢復正常,但這次長達數小時的全球性中斷事件,再次引發了關於網際網路基礎設施過度集中化風險的討論。