Une panne DNS du centre de données AWS Est des États-Unis provoque la paralysie des services Internet mondiaux : les plateformes d'IA et les systèmes financiers sont durement touchés

October 21, 2025
AWS
7 min

Résumé

Le 20 octobre 2025, une panne majeure a frappé les centres de données d'Amazon Web Services (AWS) sur la côte Est des États-Unis, entraînant l'interruption de milliers de sites web et d'applications à travers le monde pendant plusieurs heures. Cet incident a eu un impact considérable, touchant des plateformes d'IA comme ChatGPT et Perplexity, des services financiers tels que Robinhood et Venmo, ainsi que des applications sociales comme Snapchat et Signal. La panne, dont la cause première était un problème de résolution DNS dans la région US-EAST-1 d'AWS, a généré plus de 6,5 millions de rapports d'incident cumulés à l'échelle mondiale.


Aux premières heures du 20 octobre 2025, Amazon Web Services (AWS), le plus grand fournisseur de services cloud au monde, a subi une panne grave, provoquant des interruptions de service massives sur Internet. Cet événement a une fois de plus mis en lumière les risques de dépendance excessive de l'infrastructure numérique moderne vis-à-vis d'un seul fournisseur de services cloud.

Chronologie de la panne et étendue de l'impact

Selon le tableau de bord de santé d'AWS, la panne a été signalée pour la première fois le 20 octobre à 00h11 HAE (12h11 heure de Pékin), affectant principalement le centre de données US-EAST-1 d'AWS situé en Virginie du Nord.

Au début de la panne, AWS a confirmé que plusieurs de ses services connaissaient des "taux d'erreur significatifs" et des problèmes de latence. À 1h26 HAE, l'entreprise a confirmé que le problème était lié à une défaillance de la résolution DNS pour son service de base de données DynamoDB. Le système DNS, responsable de la conversion des noms de domaine en adresses IP, a vu sa défaillance empêcher un grand nombre d'applications de se connecter correctement aux bases de données hébergées par AWS.

À 3h35 HAE, AWS a annoncé avoir "entièrement atténué" le problème DNS principal, mais les efforts de restauration des services se sont poursuivis jusqu'à environ 18h00 HAE. La panne a duré plus de 17 heures au total, certains services connaissant encore des problèmes intermittents dans l'après-midi.

Les services d'IA et les plateformes financières durement touchés

Cette panne a eu un impact significatif sur les services d'intelligence artificielle. ChatGPT d'OpenAI a rencontré des problèmes d'authentification unique (SSO), empêchant les utilisateurs de se connecter normalement. Aravind Srinivas, PDG du moteur de recherche IA Perplexity, a confirmé sur la plateforme X : "Perplexity est actuellement hors service, la cause première étant un problème AWS. Nous travaillons à le résoudre."

Les plateformes de technologie financière ont également subi un choc majeur. Les applications de paiement mobile Venmo, la banque numérique Chime, la plateforme d'échange de cryptomonnaies Coinbase et la plateforme de trading boursier Robinhood ont toutes signalé des interruptions de service. Des clients de plusieurs banques britanniques ont signalé l'impossibilité d'effectuer des paiements par carte, et la Bank of Scotland s'est excusée auprès de ses clients sur les médias sociaux.

Les secteurs social, du jeu et de l'éducation entièrement affectés

Les applications de médias sociaux et de communication ont été largement paralysées. Les utilisateurs de Snapchat ont continué de rencontrer des problèmes techniques, et Meredith Whittaker, présidente de l'application de communication chiffrée Signal, a confirmé que l'interruption de service était liée à la panne AWS. La plateforme de visioconférence Zoom, l'outil collaboratif Slack et la plateforme de conception Canva ont tous rencontré des problèmes de connexion.

L'industrie du jeu n'a pas été épargnée. Les jeux populaires Fortnite, Roblox, Pokémon GO, ainsi que l'Epic Games Store, ont tous signalé des problèmes de connexion et de connexion. La plateforme d'apprentissage en ligne Canvas, utilisée par des milliers d'universités et d'écoles K-12 aux États-Unis, était inaccessible en raison de la panne, affichant toujours un avertissement "AWS Continuous Event" jusqu'à 14h30 HAE, affectant la soumission des devoirs et l'accès aux supports de cours par les étudiants.

Les appareils intelligents et les services d'entreprise à l'arrêt

L'assistant intelligent d'Amazon, Alexa, est devenu totalement inopérant, empêchant les utilisateurs de contrôler leurs appareils domestiques intelligents par la voix. Les sonnettes intelligentes Ring, Amazon Prime Video et d'autres services ont également rencontré des problèmes. Le système d'enregistrement automatique de l'aéroport LaGuardia de New York est tombé en panne, entraînant de longues files d'attente pour les passagers.

Les sites web du gouvernement britannique, y compris le service des impôts et des douanes (HMRC) et le site officiel du gouvernement, ont rencontré des problèmes d'accès. Des centaines de services, tels que le service de covoiturage Lyft, l'application de livraison de repas McDonald's et l'application de rencontres Hinge, ont été touchés.

Selon les données du site de suivi des pannes Downdetector, plus de 11 millions de rapports de panne ont été reçus à l'échelle mondiale, avec un pic de plus de 50 000 rapports en une seule journée.

Causes techniques et processus de récupération

AWS a révélé dans des mises à jour ultérieures que la cause profonde de la panne était un problème dans un "sous-système interne sous-jacent responsable de la surveillance de l'état des équilibreurs de charge réseau". La défaillance de ce composant central a déclenché une réaction en chaîne, entraînant d'abord l'échec de la résolution DNS de DynamoDB, puis affectant le lancement des instances EC2 (Elastic Compute Cloud).

À 8h43 HAE, AWS a déclaré avoir "réduit la portée de la source du problème de connectivité réseau". Pour éviter une charge supplémentaire, l'entreprise a mis en œuvre des mesures de limitation de débit pour les nouvelles demandes de lancement d'instances EC2. Pendant le processus de récupération, AWS a progressivement levé ces limitations, mais la file d'attente des requêtes accumulées sur la plateforme de calcul sans serveur Lambda a nécessité un temps de traitement supplémentaire.

Dans sa dernière mise à jour à 18h00 HAE, AWS a confirmé que "les services sont revenus à la normale" et a déclaré que les limitations de lancement d'instances EC2 étaient revenues à leur niveau d'avant l'incident.

Réactions de l'industrie et avertissements

Christian Espinosa, expert en cybersécurité, a déclaré : "Cette panne massive affectant AWS et les principales plateformes britanniques nous rappelle brutalement que le monde numérique repose sur des fondations étonnamment fragiles. La concentration des services cloud – où quelques fournisseurs hébergent la plupart des systèmes critiques – crée des points de défaillance uniques. Lorsqu'une région de données ou un fournisseur tombe en panne, les répercussions en chaîne affectent tout, du commerce de détail à la finance, en passant par la logistique et les communications."

Mehdi Daoudi, PDG de Catchpoint, une société de surveillance des performances Internet, a déclaré que les pertes économiques de cette panne restaient à évaluer, mais qu'elles pourraient être "extrêmement importantes".

Pendant la panne, Elon Musk, PDG de Tesla, a publié des contenus moqueurs sur la plateforme X, soulignant que sa plateforme de médias sociaux n'avait pas été affectée, et a partagé un mème satirique visant le fondateur d'Amazon, Jeff Bezos.

AWS détient environ 30 % du marché mondial du cloud computing, formant un trio dominant avec Microsoft Azure et Google Cloud. Cet incident s'est produit dans la région US-EAST-1 d'AWS, l'une des plaques tournantes essentielles du trafic Internet mondial. Les analystes ont souligné que de nombreuses entreprises n'avaient pas mis en œuvre de mécanismes de redondance suffisants entre les régions ou entre les fournisseurs de services cloud, ce qui a amplifié l'impact du point de défaillance unique.

Ce n'est pas la première fois qu'AWS subit une panne majeure dans la région US-EAST-1. En 2020, 2021 et 2023, cette région a déjà connu des incidents entraînant des interruptions de service massives.

Perspectives d'avenir

Cette panne devrait accélérer la transition des entreprises vers des stratégies multi-cloud et hybrides afin de réduire les risques de dépendance vis-à-vis d'un seul fournisseur de services cloud. Les experts du secteur prévoient une augmentation potentielle des assurances contre les interruptions d'activité spécifiquement conçues pour les pannes de services cloud.

AWS a déclaré qu'elle mènerait une enquête approfondie sur l'incident et s'est engagée à améliorer la redondance de ses systèmes et ses mécanismes de récupération après panne. Au soir du 20 octobre HAE, tous les services étaient revenus à la normale, mais cet incident d'interruption mondiale de plusieurs heures a une fois de plus relancé le débat sur les risques de centralisation excessive de l'infrastructure Internet.