DNS-Fehler im AWS-Rechenzentrum USA (Ost) löst globale Lähmung von Internetdiensten aus: KI-Plattformen und Finanzsysteme schwer getroffen

October 21, 2025
AWS
6 min

Zusammenfassung

Am 20. Oktober 2025 kam es zu einem massiven Ausfall in den Rechenzentren von Amazon Web Services (AWS) an der US-Ostküste, der weltweit Tausende von Websites und Anwendungen für mehrere Stunden lahmlegte. Das Ereignis hatte weitreichende Auswirkungen und betraf KI-Plattformen wie ChatGPT und Perplexity, Finanzdienstleister wie Robinhood und Venmo sowie soziale Anwendungen wie Snapchat und Signal. Die Störung wurde durch ein DNS-Auflösungsproblem in der AWS-Region US-EAST-1 verursacht, wobei weltweit über 6,5 Millionen Störungsmeldungen eingingen.


In den frühen Morgenstunden des 20. Oktober 2025 kam es beim weltweit größten Cloud-Anbieter Amazon Web Services (AWS) zu einem schwerwiegenden Ausfall, der zu massiven Dienstunterbrechungen im Internet führte. Dieses Ereignis verdeutlichte einmal mehr das Risiko einer übermäßigen Abhängigkeit der modernen digitalen Infrastruktur von einem einzigen Cloud-Anbieter.

Zeitlicher Ablauf des Ausfalls und Ausmaß der Auswirkungen

Laut dem AWS Health Dashboard wurde der Ausfall erstmals am 20. Oktober um 00:11 Uhr Eastern Standard Time (EST) (12:11 Uhr Pekinger Zeit) gemeldet und betraf hauptsächlich das AWS-Rechenzentrum US-EAST-1 in Nord-Virginia.

In der Anfangsphase bestätigte AWS, dass bei mehreren seiner Dienste "signifikante Fehlerraten" und Latenzprobleme auftraten. Um 01:26 Uhr EST bestätigte das Unternehmen, dass das Problem mit einem DNS-Auflösungsfehler des DynamoDB-Datenbankdienstes zusammenhing. Das DNS-System ist für die Umwandlung von Website-Domainnamen in IP-Adressen zuständig; sein Ausfall führte dazu, dass eine große Anzahl von Anwendungen keine normale Verbindung zu den von AWS gehosteten Datenbanken herstellen konnte.

Bis 03:35 Uhr EST gab AWS bekannt, dass das zentrale DNS-Problem "vollständig behoben" sei, die Wiederherstellung der Dienste dauerte jedoch bis etwa 18:00 Uhr, bis sie weitgehend abgeschlossen war. Der gesamte Ausfall dauerte über 17 Stunden, wobei einige Dienste am Nachmittag weiterhin intermittierende Probleme aufwiesen.

KI-Dienste und Finanzplattformen schwer getroffen

Der Ausfall hatte erhebliche Auswirkungen auf KI-Dienste. Bei OpenAI's ChatGPT traten Single Sign-On (SSO)-Probleme auf, sodass Benutzer sich nicht normal anmelden und den Dienst nutzen konnten. Aravind Srinivas, CEO der KI-Suchmaschine Perplexity, bestätigte auf der sozialen Plattform X: "Perplexity ist jetzt ausgefallen, die Grundursache ist ein AWS-Problem. Wir arbeiten daran, es zu beheben."

Auch Fintech-Plattformen waren stark betroffen. Die mobile Zahlungs-App Venmo, die Digitalbank Chime, die Kryptowährungsbörse Coinbase sowie die Aktienhandelsplattform Robinhood meldeten Dienstunterbrechungen. Kunden mehrerer britischer Banken berichteten, dass sie keine Kartenzahlungen vornehmen konnten, und die Bank of Scotland entschuldigte sich bei ihren Kunden in den sozialen Medien.

Soziale Medien, Gaming und Bildung umfassend betroffen

Soziale Medien und Kommunikations-Apps waren weitgehend lahmgelegt. Snapchat-Nutzer hatten weiterhin technische Probleme, und Meredith Whittaker, Präsidentin der verschlüsselten Kommunikations-App Signal, bestätigte, dass die Dienstunterbrechung mit dem AWS-Ausfall zusammenhing. Die Videokonferenzplattform Zoom, das Kollaborationstool Slack und die Designplattform Canva hatten alle Verbindungsprobleme.

Auch die Gaming-Branche blieb nicht verschont. Beliebte Spiele wie Fortnite, Roblox, Pokémon GO sowie der Epic Games Store meldeten Anmelde- und Verbindungsprobleme. Die Online-Lernplattform Canvas, die von Tausenden von Universitäten und K-12-Schulen in den USA genutzt wird, war aufgrund des Ausfalls nicht zugänglich und zeigte bis 14:30 Uhr EST weiterhin eine "AWS Ongoing Event"-Warnung an, was die Abgabe von Hausaufgaben und den Zugriff auf Kursmaterialien für Studenten beeinträchtigte.

Smart Devices und Unternehmensdienste lahmgelegt

Amazons eigener Sprachassistent Alexa reagierte überhaupt nicht mehr, sodass Benutzer Smart-Home-Geräte nicht per Sprachbefehl steuern konnten. Auch Dienste wie Ring Smart Doorbell und Amazon Prime Video hatten Probleme. Die Self-Check-in-Systeme am New Yorker LaGuardia Airport fielen aus, was zu langen Warteschlangen bei den Passagieren führte.

Britische Regierungswebsites, darunter die Steuer- und Zollbehörde (HMRC) sowie die offizielle Regierungswebsite, wiesen Zugriffsprobleme auf. Fahrdienste wie Lyft, Essensliefer-Apps wie McDonald's und Dating-Apps wie Hinge waren ebenfalls von den Störungen betroffen.

Laut Daten der Ausfall-Tracking-Website Downdetector gingen weltweit insgesamt über 11 Millionen Störungsmeldungen ein, wobei die Spitzenzahl der Meldungen an einem einzigen Tag über 50.000 erreichte.

Technische Ursachen und Wiederherstellungsprozess

AWS gab in späteren Updates bekannt, dass die Grundursache des Ausfalls in einem "zugrunde liegenden internen Subsystem, das für die Überwachung des Gesundheitszustands von Network Load Balancern zuständig ist", lag. Der Ausfall dieser Kernkomponente löste eine Kettenreaktion aus, die zunächst zu einem DNS-Auflösungsfehler bei DynamoDB und anschließend zu Problemen beim Start von EC2 (Elastic Compute Cloud)-Instanzen führte.

Um 08:43 Uhr EST erklärte AWS, dass es die "Ursache der Netzwerkverbindungsprobleme eingegrenzt" habe. Um eine weitere Überlastung zu vermeiden, drosselte das Unternehmen die Anfragen zum Start neuer EC2-Instanzen. Während des Wiederherstellungsprozesses hob AWS die Drosselung schrittweise auf, aber die Rückstände in der Anfragenwarteschlange der Lambda-Serverless-Computing-Plattform benötigten zusätzliche Zeit zur Bearbeitung.

In seinem letzten Update um 18:00 Uhr bestätigte AWS: "Die Dienste sind wieder normal in Betrieb", und erklärte, dass die Drosselung für den Start von EC2-Instanzen wieder auf das Niveau vor dem Ereignis zurückgesetzt wurde.

Reaktionen der Branche und Warnungen

Der Cybersicherheitsexperte Christian Espinosa bemerkte: "Dieser massive Ausfall, der AWS und wichtige britische Plattformen betraf, ist eine ernüchternde Erinnerung daran, dass die digitale Welt auf erstaunlich fragilen Grundlagen aufgebaut ist. Die Konzentration von Cloud-Diensten – bei der eine Handvoll Anbieter die meisten kritischen Systeme hostet – schafft Single Points of Failure. Wenn eine Datenregion oder ein Anbieter ausfällt, erfasst die Kettenreaktion alles im Einzelhandel, im Finanzwesen, in der Logistik und in der Kommunikation."

Mehdi Daoudi, CEO des Internet-Performance-Monitoring-Unternehmens Catchpoint, sagte, der wirtschaftliche Schaden dieses Ausfalls müsse noch bewertet werden, sei aber wahrscheinlich "extrem groß".

Tesla-CEO Elon Musk veröffentlichte während des Ausfalls spöttische Inhalte auf der Plattform X, betonte, dass seine soziale Plattform nicht betroffen sei, und teilte ein Meme, das Amazon-Gründer Jeff Bezos verspottete.

AWS hält weltweit einen Marktanteil von etwa 30 % im Cloud-Computing-Markt und bildet zusammen mit Microsoft Azure und Google Cloud ein Oligopol. Dieses Ereignis ereignete sich in der AWS-Region US-EAST-1 – einer der wichtigsten Knotenpunkte für den globalen Internetverkehr. Analysten weisen darauf hin, dass viele Unternehmen keine ausreichenden Redundanzmechanismen über Regionen oder Cloud-Anbieter hinweg implementiert haben, was die Auswirkungen von Single Points of Failure verstärkt.

Dies ist nicht der erste größere Ausfall in der AWS-Region US-EAST-1. In den Jahren 2020, 2021 und 2023 kam es in dieser Region ebenfalls zu Ereignissen, die massive Dienstunterbrechungen verursachten.

Ausblick

Es wird erwartet, dass dieser Ausfall die Umstellung von Unternehmen auf Multi-Cloud- und Hybrid-Cloud-Strategien beschleunigen wird, um das Risiko einer Abhängigkeit von einem einzigen Cloud-Anbieter zu verringern. Branchenexperten prognostizieren, dass Betriebsunterbrechungsversicherungen, die speziell auf Cloud-Dienstausfälle zugeschnitten sind, zunehmen könnten.

AWS hat angekündigt, den Vorfall umfassend zu untersuchen und versprochen, die Systemredundanz und die Mechanismen zur Fehlerbehebung zu verbessern. Bis zum Abend des 20. Oktober EST waren alle Dienste wieder normal in Betrieb, doch dieses stundenlange globale Ausfallereignis hat erneut die Diskussion über die Risiken einer übermäßigen Zentralisierung der Internetinfrastruktur entfacht.