AWS 미국 동부 데이터센터 DNS 장애로 글로벌 인터넷 서비스 마비: AI 플랫폼 및 금융 시스템에 큰 타격

October 21, 2025
AWS
5 min

요약

2025년 10월 20일, 아마존 웹 서비스(AWS) 미국 동부 데이터 센터에서 대규모 장애가 발생하여 전 세계 수천 개의 웹사이트와 애플리케이션 서비스가 몇 시간 동안 중단되었습니다. 이번 사건은 ChatGPT, Perplexity와 같은 AI 플랫폼, Robinhood 및 Venmo와 같은 금융 서비스, Snapchat, Signal과 같은 소셜 애플리케이션을 포함하여 광범위한 영향을 미쳤습니다. 장애는 AWS 미국 동부 1 (US-EAST-1) 리전의 DNS 해석 문제에서 비롯되었으며, 전 세계적으로 650만 건 이상의 장애 보고가 접수되었습니다.


2025년 10월 20일 새벽, 세계 최대 클라우드 서비스 제공업체인 아마존 웹 서비스(AWS)에서 심각한 장애가 발생하여 인터넷 서비스가 대규모로 중단되었습니다. 이번 사건은 현대 디지털 인프라가 단일 클라우드 서비스 제공업체에 과도하게 의존하는 위험을 다시 한번 부각시켰습니다.

장애 타임라인 및 영향 범위

AWS 상태 대시보드에 따르면, 장애는 미국 동부 시간 10월 20일 새벽 12시 11분(한국 시간 10월 20일 오후 1시 11분)에 처음 보고되었으며, 주로 북버지니아주에 위치한 AWS 미국 동부 1 (US-EAST-1) 데이터 센터에 영향을 미쳤습니다.

장애 초기, AWS는 여러 서비스에서 "상당한 오류율"과 지연 문제가 발생했음을 확인했습니다. 미국 동부 시간 새벽 1시 26분, 회사는 문제가 DynamoDB 데이터베이스 서비스의 DNS 해석 장애와 관련이 있음을 확인했습니다. DNS 시스템은 웹사이트 도메인 이름을 IP 주소로 변환하는 역할을 하며, 이 시스템의 장애로 인해 수많은 애플리케이션이 AWS에서 호스팅되는 데이터베이스에 정상적으로 연결할 수 없게 되었습니다.

미국 동부 시간 오전 3시 35분까지 AWS는 핵심 DNS 문제를 "완전히 완화"했다고 발표했지만, 서비스 복구 작업은 저녁 6시가 되어서야 기본적으로 완료되었습니다. 전체 장애 지속 시간은 17시간을 초과했으며, 일부 서비스는 오후 시간대에도 간헐적인 문제를 겪었습니다.

AI 서비스 및 금융 플랫폼에 큰 타격

이번 장애는 인공지능 서비스에 상당한 영향을 미쳤습니다. OpenAI의 ChatGPT는 단일 로그인(SSO) 문제로 인해 사용자들이 정상적으로 로그인하여 사용할 수 없었습니다. AI 검색 엔진 Perplexity의 CEO 아라빈드 스리니바스(Aravind Srinivas)는 소셜 플랫폼 X에서 "Perplexity가 현재 다운되었으며, 근본 원인은 AWS 문제입니다. 해결을 위해 노력하고 있습니다."라고 확인했습니다.

핀테크 플랫폼 또한 큰 충격을 받았습니다. 모바일 결제 앱 Venmo, 디지털 은행 Chime, 암호화폐 거래소 Coinbase, 주식 거래 플랫폼 Robinhood 모두 서비스 중단을 보고했습니다. 영국 내 여러 은행 고객들은 카드 결제가 불가능하다고 불평했으며, 스코틀랜드 은행은 소셜 미디어에서 고객들에게 사과했습니다.

소셜, 게임 및 교육 분야 전반에 걸쳐 피해

소셜 미디어 및 통신 앱이 대규모로 마비되었습니다. Snapchat 사용자들은 지속적으로 기술적인 문제를 겪었으며, 암호화 통신 앱 Signal의 사장 메레디스 휘태커(Meredith Whittaker)는 서비스 중단이 AWS 장애와 관련이 있음을 확인했습니다. 화상 회의 플랫폼 Zoom, 협업 도구 Slack, 디자인 플랫폼 Canva 모두 연결 문제를 겪었습니다.

게임 산업 또한 피해를 피할 수 없었습니다. 인기 게임 Fortnite, Roblox, Pokemon GO 및 Epic Games 스토어 모두 로그인 및 연결 장애를 보고했습니다. 미국 수천 개의 대학과 K-12 학교에서 사용하는 온라인 학습 플랫폼 Canvas는 장애로 인해 접속할 수 없었으며, 미국 동부 시간 오후 2시 30분까지도 "AWS 지속적인 이벤트" 경고를 표시하여 학생들이 과제를 제출하고 강의 자료에 접근하는 데 영향을 미쳤습니다.

스마트 기기 및 기업 서비스 마비

아마존 자체 스마트 비서 Alexa는 완전히 응답 불능 상태가 되어 사용자들이 음성으로 스마트 홈 기기를 제어할 수 없었습니다. Ring 스마트 초인종, Amazon Prime Video와 같은 서비스도 문제를 겪었습니다. 뉴욕 라과디아 공항의 셀프 체크인 시스템이 다운되어 승객들이 긴 줄을 서야 했습니다.

영국 정부 웹사이트인 국세청(HMRC) 및 정부 공식 웹사이트 모두 접속 문제를 겪었습니다. 차량 호출 서비스 Lyft, 음식 배달 앱 McDonald's, 데이팅 앱 Hinge 등 수백 가지 서비스가 영향을 받았습니다.

장애 추적 웹사이트 Downdetector 데이터에 따르면, 전 세계적으로 1,100만 건 이상의 장애 보고가 누적되었으며, 피크 시간대에는 하루 보고 건수가 5만 건을 돌파했습니다.

기술적 근원 및 복구 과정

AWS는 후속 업데이트에서 장애의 근본 원인이 "네트워크 로드 밸런서의 상태를 모니터링하는 하위 내부 서브시스템"에 문제가 발생했기 때문이라고 밝혔습니다. 이 핵심 구성 요소의 실패는 연쇄 반응을 일으켜 DynamoDB의 DNS 해석 실패를 초래했고, 이어서 EC2(탄력적 컴퓨팅 클라우드) 인스턴스 시작에 영향을 미쳤습니다.

미국 동부 시간 오전 8시 43분, AWS는 "네트워크 연결 문제의 근원을 좁혔다"고 밝혔습니다. 추가적인 부하를 피하기 위해 회사는 새로운 EC2 인스턴스 시작 요청에 대해 트래픽 제한 조치를 시행했습니다. 복구 과정에서 AWS는 점진적으로 트래픽 제한을 해제했지만, 람다 서버리스 컴퓨팅 플랫폼에 누적된 요청 대기열을 처리하는 데 추가 시간이 필요했습니다.

AWS는 저녁 6시 최종 업데이트에서 "서비스가 정상 작동으로 복구되었다"고 확인했으며, EC2 인스턴스 시작 트래픽 제한이 이벤트 이전 수준으로 복구되었다고 밝혔습니다.

업계 반응 및 경고

사이버 보안 전문가 크리스티안 에스피노사(Christian Espinosa)는 "이번 AWS와 영국 주요 플랫폼에 영향을 미친 대규모 장애는 디지털 세계가 놀랍도록 취약한 기반 위에 구축되어 있다는 엄중한 경고입니다. 클라우드 서비스 집중도, 즉 소수의 제공업체가 대부분의 핵심 시스템을 호스팅하는 것은 단일 장애 지점을 만듭니다. 하나의 데이터 리전 또는 제공업체가 다운되면 소매, 금융, 물류, 통신 등 모든 분야에 연쇄 반응이 미칩니다."라고 지적했습니다.

인터넷 성능 모니터링 회사 Catchpoint의 CEO 메흐디 다우디(Mehdi Daoudi)는 이번 장애로 인한 경제적 손실은 아직 평가되지 않았지만 "극히 막대할 수 있다"고 말했습니다.

테슬라 CEO 일론 머스크는 장애 기간 동안 X 플랫폼에 조롱하는 내용을 게시하며 자신의 소셜 플랫폼은 영향을 받지 않았음을 강조하고, 아마존 창업자 제프 베이조스를 풍자하는 이모티콘을 리트윗했습니다.

AWS는 전 세계 클라우드 컴퓨팅 시장에서 약 30%의 점유율을 차지하며, 마이크로소프트 애저 및 구글 클라우드와 함께 삼각 구도를 형성하고 있습니다. 이번 사건은 전 세계 인터넷 트래픽의 핵심 허브 중 하나인 AWS 미국 동부 1 리전에서 발생했습니다. 분석가들은 많은 기업이 리전 간 또는 클라우드 서비스 제공업체 간 이중화 메커니즘을 충분히 구현하지 않아 단일 장애 지점의 영향이 증폭되었다고 지적했습니다.

이번이 AWS 미국 동부 1 리전에서 발생한 첫 번째 주요 장애는 아닙니다. 2020년, 2021년, 2023년에도 이 리전에서 대규모 서비스 중단을 초래한 사건이 발생한 바 있습니다.

미래 전망

이번 장애는 기업들이 단일 클라우드 서비스 제공업체에 대한 의존 위험을 줄이기 위해 멀티 클라우드 및 하이브리드 클라우드 전략으로의 전환을 가속화할 것으로 예상됩니다. 업계 관계자들은 클라우드 서비스 중단에 특화된 사업 중단 보험이 증가할 수 있다고 예측합니다.

AWS 측은 이번 사건에 대해 전면적인 조사를 진행하고 시스템 이중화 및 장애 복구 메커니즘을 개선할 것을 약속했습니다. 미국 동부 시간 10월 20일 저녁까지 모든 서비스는 정상으로 복구되었지만, 몇 시간 동안 지속된 이번 전 세계적인 중단 사태는 인터넷 인프라의 과도한 집중화 위험에 대한 논의를 다시 한번 불러일으켰습니다.