Un fallo de DNS en el centro de datos de AWS en el este de EE. UU. provoca la parálisis de los servicios de Internet a nivel mundial: plataformas de IA y sistemas financieros gravemente afectados

October 21, 2025
AWS
7 min

Resumen

El 20 de octubre de 2025, una falla masiva en el centro de datos de Amazon Web Services (AWS) en la costa este de EE. UU. provocó la interrupción de miles de sitios web y aplicaciones a nivel mundial durante varias horas. Este incidente tuvo un impacto generalizado, afectando a plataformas de IA como ChatGPT y Perplexity, servicios financieros como Robinhood y Venmo, y aplicaciones sociales como Snapchat y Signal. La falla se originó por un problema de resolución de DNS en la región US-EAST-1 de AWS, y se recibieron más de 6.5 millones de informes de fallas en todo el mundo.


En la madrugada del 20 de octubre de 2025, Amazon Web Services (AWS), el proveedor de servicios en la nube más grande del mundo, sufrió una grave falla que causó una interrupción masiva de servicios en internet. Este incidente volvió a poner de manifiesto el riesgo de la dependencia excesiva de la infraestructura digital moderna en un único proveedor de la nube.

Cronología de la Falla y Alcance del Impacto

Según el panel de estado de AWS, la falla fue reportada por primera vez a las 12:11 AM hora del este de EE. UU. (12:11 PM hora de Pekín) del 20 de octubre, afectando principalmente al centro de datos US-EAST-1 de AWS, ubicado en el norte de Virginia.

Al inicio de la falla, AWS confirmó "tasas de error significativas" y problemas de latencia en varios de sus servicios. A la 1:26 AM hora del este de EE. UU., la compañía confirmó que el problema estaba relacionado con una falla de resolución de DNS en el servicio de base de datos DynamoDB. El sistema DNS, que es responsable de convertir los nombres de dominio de los sitios web en direcciones IP, falló, lo que impidió que una gran cantidad de aplicaciones se conectaran a las bases de datos alojadas en AWS.

Para las 3:35 AM hora del este de EE. UU., AWS anunció que había "mitigado completamente" el problema central de DNS, pero los trabajos de recuperación del servicio continuaron hasta las 6 PM, cuando se completaron en gran medida. La interrupción total duró más de 17 horas, y algunos servicios experimentaron problemas intermitentes durante la tarde.

Servicios de IA y Plataformas Financieras Severamente Afectados

Esta falla tuvo un impacto significativo en los servicios de inteligencia artificial. ChatGPT de OpenAI experimentó problemas de inicio de sesión único (SSO), impidiendo a los usuarios iniciar sesión y usarlo normalmente. Aravind Srinivas, CEO de Perplexity, el motor de búsqueda de IA, confirmó en la plataforma X: "Perplexity está caído ahora, la causa raíz es un problema de AWS. Estamos trabajando para resolverlo."

Las plataformas fintech también sufrieron un gran impacto. Las aplicaciones de pago móvil Venmo, el banco digital Chime, el intercambio de criptomonedas Coinbase y la plataforma de negociación de acciones Robinhood reportaron interrupciones de servicio. Clientes de varios bancos británicos informaron no poder realizar pagos con tarjeta, y el Bank of Scotland se disculpó con sus clientes en redes sociales.

Sectores Social, de Juegos y Educativo Completamente Afectados

Las aplicaciones de redes sociales y comunicación sufrieron una parálisis generalizada. Los usuarios de Snapchat experimentaron problemas técnicos continuos, y Meredith Whittaker, presidenta de la aplicación de comunicación cifrada Signal, confirmó que la interrupción del servicio estaba relacionada con la falla de AWS. La plataforma de videoconferencias Zoom, la herramienta de colaboración Slack y la plataforma de diseño Canva experimentaron problemas de conexión.

La industria de los videojuegos tampoco se salvó. Los populares juegos Fortnite, Roblox, Pokemon GO y la tienda de Epic Games reportaron fallas de inicio de sesión y conexión. La plataforma de aprendizaje en línea Canvas, utilizada por miles de universidades y escuelas K-12 en EE. UU., fue inaccesible debido a la falla, mostrando una advertencia de "incidente continuo de AWS" hasta las 2:30 PM hora del este de EE. UU., afectando la entrega de tareas y el acceso a materiales del curso por parte de los estudiantes.

Dispositivos Inteligentes y Servicios Empresariales Paralizados

El asistente inteligente propio de Amazon, Alexa, perdió completamente la capacidad de respuesta, impidiendo a los usuarios controlar dispositivos de hogar inteligente por voz. Servicios como Ring (timbre inteligente) y Amazon Prime Video también experimentaron problemas. El sistema de auto-check-in del aeropuerto LaGuardia de Nueva York se cayó, causando largas colas de pasajeros.

Sitios web del gobierno británico, incluyendo HM Revenue & Customs (HMRC) y el sitio web oficial del gobierno, experimentaron problemas de acceso. Cientos de servicios como el de transporte compartido Lyft, la aplicación de entrega de comida a domicilio McDonald's y la aplicación de citas Hinge se vieron afectados.

Según datos del sitio web de seguimiento de fallas Downdetector, se recibieron más de 11 millones de informes de fallas a nivel mundial, con un pico de más de 50,000 informes en un solo día durante el período de mayor impacto.

Raíz Técnica y Proceso de Recuperación

AWS reveló en actualizaciones posteriores que la causa raíz de la falla fue un problema en el "subsistema interno subyacente responsable de monitorear el estado de los balanceadores de carga de red". La falla de este componente central desencadenó una reacción en cadena, primero causando la falla de resolución de DNS de DynamoDB y luego afectando el lanzamiento de instancias EC2 (Elastic Compute Cloud).

A las 8:43 AM hora del este de EE. UU., AWS declaró que había "reducido el alcance de la causa raíz de los problemas de conectividad de red". Para evitar una carga adicional, la compañía implementó medidas de limitación de solicitudes para el lanzamiento de nuevas instancias EC2. Durante el proceso de recuperación, AWS levantó gradualmente las limitaciones, pero la cola de solicitudes acumuladas de la plataforma de computación sin servidor Lambda requirió tiempo adicional para procesarse.

En su actualización final a las 6 PM, AWS confirmó: "Los servicios han vuelto a la normalidad", y declaró que las limitaciones de lanzamiento de instancias EC2 habían vuelto a los niveles previos al incidente.

Reacción de la Industria y Advertencias

Christian Espinosa, experto en ciberseguridad, señaló: "Esta falla masiva que afectó a AWS y a las principales plataformas del Reino Unido es un recordatorio severo de que el mundo digital se construye sobre cimientos sorprendentemente frágiles. La concentración de servicios en la nube —donde unos pocos proveedores alojan la mayoría de los sistemas críticos— crea puntos únicos de falla. Cuando una región de datos o un proveedor cae, la reacción en cadena afecta a todo, desde el comercio minorista hasta las finanzas, la logística y las comunicaciones."

Mehdi Daoudi, CEO de Catchpoint, una empresa de monitoreo del rendimiento de internet, dijo que las pérdidas económicas de esta falla aún no se han evaluado, pero podrían ser "extremadamente grandes".

Elon Musk, CEO de Tesla, publicó contenido burlón en la plataforma X durante la falla, enfatizando que su plataforma social no se vio afectada, y compartió un meme satírico del fundador de Amazon, Jeff Bezos.

AWS ocupa aproximadamente el 30% del mercado global de computación en la nube, formando un triopolio con Microsoft Azure y Google Cloud. Este incidente ocurrió en la región US-EAST-1 de AWS, uno de los centros neurálgicos clave para el tráfico de internet global. Los analistas señalaron que muchas empresas no implementaron adecuadamente mecanismos de redundancia entre regiones o entre proveedores de la nube, lo que amplificó el impacto del punto único de falla.

Esta no es la primera vez que AWS experimenta una falla importante en la región US-EAST-1. En 2020, 2021 y 2023, esta región también sufrió incidentes que causaron interrupciones masivas de servicio.

Perspectivas Futuras

Se espera que esta falla acelere la transición de las empresas hacia estrategias multi-nube e híbridas, para reducir el riesgo de dependencia de un único proveedor de servicios en la nube. Los expertos de la industria predicen un posible aumento en los seguros de interrupción de negocio específicamente para interrupciones de servicios en la nube.

AWS ha declarado que llevará a cabo una investigación exhaustiva del incidente y se ha comprometido a mejorar la redundancia del sistema y los mecanismos de recuperación ante fallas. Hasta la noche del 20 de octubre hora del este de EE. UU., todos los servicios habían vuelto a la normalidad, pero este incidente de interrupción global de varias horas ha reavivado el debate sobre los riesgos de la centralización excesiva de la infraestructura de internet.