AWS美东数据中心DNS故障引发全球互联网服务瘫痪:AI平台与金融系统遭重创

2025-10-21

AWS

6 min

摘要

2025年10月20日,亚马逊云服务(AWS)美国东海岸数据中心发生大规模故障,导致全球数千个网站和应用程序服务中断长达数小时。此次事件影响范围广泛,包括ChatGPT、Perplexity等AI平台、Robinhood和Venmo等金融服务、以及Snapchat、Signal等社交应用。故障源于AWS美东一区(US-EAST-1)的DNS解析问题,全球累计收到超过650万份故障报告。

2025年10月20日凌晨,全球最大的云服务提供商亚马逊云服务(AWS)发生严重故障,造成互联网大规模服务中断。此次事件再次凸显了现代数字基础设施对单一云服务商的过度依赖风险。

故障时间线与影响范围

根据AWS健康仪表板显示,故障首次报告于美东时间10月20日凌晨12:11(北京时间12:11),主要影响AWS位于北弗吉尼亚州的美东一区(US-EAST-1)数据中心。

故障初期,AWS确认其多个服务出现"显著错误率"和延迟问题。美东时间凌晨1:26,公司证实问题与DynamoDB数据库服务的DNS解析故障有关。DNS系统负责将网站域名转换为IP地址,其故障导致大量应用无法正常连接到AWS托管的数据库。

到美东时间上午3:35,AWS宣布已"完全缓解"核心DNS问题,但服务恢复工作持续到傍晚6点才基本完成。整个故障持续时间超过17小时,部分服务在下午时段仍出现间歇性问题。

AI服务与金融平台遭重创

此次故障对人工智能服务造成显著影响。OpenAI的ChatGPT出现单点登录(SSO)问题,用户无法正常登录使用。AI搜索引擎Perplexity的CEO Aravind Srinivas在社交平台X上确认:"Perplexity现在宕机了,根本原因是AWS问题。我们正在努力解决。"

金融科技平台同样遭受重大冲击。移动支付应用Venmo、数字银行Chime、加密货币交易所Coinbase以及股票交易平台Robinhood均报告服务中断。英国多家银行的客户反映无法进行卡支付,苏格兰银行在社交媒体上向客户致歉。

社交、游戏与教育领域全面受损

社交媒体和通讯应用大面积瘫痪。Snapchat用户持续遭遇技术问题,加密通讯应用Signal的总裁Meredith Whittaker证实服务中断与AWS故障有关。视频会议平台Zoom、协作工具Slack、设计平台Canva均出现连接问题。

游戏产业同样未能幸免。热门游戏Fortnite、Roblox、Pokemon GO以及Epic Games商店均报告登录和连接故障。美国数千所大学和K-12学校使用的在线学习平台Canvas因故障无法访问,直到美东时间下午2:30仍显示"AWS持续事件"警告,影响了学生提交作业和访问课程材料。

智能设备与企业服务停摆

亚马逊自家的智能助手Alexa完全失去响应能力,用户无法通过语音控制智能家居设备。Ring智能门铃、Amazon Prime Video等服务也出现问题。纽约拉瓜迪亚机场的自助值机系统宕机,导致乘客排起长队。

英国政府网站包括税务和海关总署(HMRC)以及政府官方网站均出现访问问题。网约车服务Lyft、外卖配送应用McDonald's以及约会软件Hinge等数百项服务受到波及。

根据故障追踪网站Downdetector数据,全球累计收到超过1100万份故障报告,高峰时段单日报告数突破5万份。

技术根源与恢复过程

AWS在后续更新中披露,故障的根本原因在于"负责监控网络负载均衡器健康状况的底层内部子系统"出现问题。这一核心组件的失效触发了连锁反应,首先导致DynamoDB的DNS解析失败,随后影响到EC2(弹性计算云)实例的启动。

美东时间上午8:43,AWS表示已"缩小网络连接问题的根源范围"。为避免进一步负载,公司对新EC2实例启动请求实施了限流措施。恢复过程中,AWS逐步解除限流,但Lambda无服务器计算平台积压的请求队列需要额外时间处理。

AWS在傍晚6点的最终更新中确认:"服务已恢复正常运行",并表示EC2实例启动限流已恢复到事件前水平。

业界反应与警示

网络安全专家Christian Espinosa指出:"这次影响AWS和英国主要平台的大规模故障,严厉提醒我们数字世界建立在惊人脆弱的基础上。云服务集中度——少数提供商托管大部分关键系统——制造了单点故障。当一个数据区域或提供商宕机时,连锁反应波及零售、金融、物流和通信的一切领域。"

互联网性能监控公司Catchpoint的CEO Mehdi Daoudi表示,此次故障的经济损失尚待评估,但可能"极其巨大"。

特斯拉CEO埃隆·马斯克在故障期间在X平台上发布嘲讽内容,强调其社交平台未受影响,并转发讽刺亚马逊创始人贝索斯的表情包。

AWS在全球云计算市场占据约30%份额,与微软Azure和谷歌云形成三足鼎立格局。此次事件发生在AWS美东一区——该区域是全球互联网流量的关键枢纽之一。分析师指出,许多企业未能充分实施跨区域或跨云服务商的冗余机制,导致单点故障影响放大。

这并非AWS首次在美东一区发生重大故障。2020年、2021年和2023年,该区域均曾发生导致大规模服务中断的事件。

未来展望

此次故障预计将加速企业向多云和混合云策略转型,以降低对单一云服务商的依赖风险。业内人士预测,专门针对云服务中断的商业中断保险可能会出现增长。

AWS方面表示将对事件进行全面调查,并承诺改进系统冗余和故障恢复机制。截至美东时间10月20日晚间,所有服务已恢复正常,但这次长达数小时的全球性中断事件,再次引发了关于互联网基础设施过度集中化风险的讨论。