Falha de DNS no data center da AWS no leste dos EUA causa paralisia dos serviços de Internet globais: plataformas de IA e sistemas financeiros são duramente atingidos

October 21, 2025
AWS
7 min

Resumo

Em 20 de outubro de 2025, uma falha massiva no centro de dados da Amazon Web Services (AWS) na Costa Leste dos EUA causou a interrupção de serviços para milhares de sites e aplicativos em todo o mundo por várias horas. O incidente teve um impacto generalizado, afetando plataformas de IA como ChatGPT e Perplexity, serviços financeiros como Robinhood e Venmo, e aplicativos sociais como Snapchat e Signal. A falha foi originada por um problema de resolução de DNS na região US-EAST-1 da AWS, com mais de 6,5 milhões de relatórios de falha acumulados globalmente.


Na madrugada de 20 de outubro de 2025, a Amazon Web Services (AWS), a maior provedora de serviços em nuvem do mundo, sofreu uma falha grave que causou uma interrupção massiva de serviços na internet. Este incidente sublinhou novamente o risco da dependência excessiva da infraestrutura digital moderna em um único provedor de serviços em nuvem.

Linha do Tempo da Falha e Escopo do Impacto

De acordo com o painel de status da AWS, a falha foi relatada pela primeira vez às 00:11 ET (12:11 BRT) de 20 de outubro, afetando principalmente o centro de dados da AWS na região US-EAST-1, localizado na Virgínia do Norte.

No início da falha, a AWS confirmou que vários de seus serviços estavam experimentando "taxas de erro significativas" e problemas de latência. Às 01:26 ET, a empresa confirmou que o problema estava relacionado a uma falha de resolução de DNS para o serviço de banco de dados DynamoDB. O sistema DNS é responsável por converter nomes de domínio de sites em endereços IP, e sua falha impediu que um grande número de aplicativos se conectasse normalmente aos bancos de dados hospedados na AWS.

Às 03:35 ET, a AWS anunciou que havia "mitigado completamente" o problema central de DNS, mas a recuperação do serviço só foi concluída basicamente às 18:00 ET. A interrupção total durou mais de 17 horas, com alguns serviços ainda apresentando problemas intermitentes durante a tarde.

Serviços de IA e Plataformas Financeiras Severamente Afetados

Esta falha teve um impacto significativo nos serviços de inteligência artificial. O ChatGPT da OpenAI enfrentou problemas de Single Sign-On (SSO), impedindo que os usuários fizessem login e o utilizassem normalmente. Aravind Srinivas, CEO do motor de busca de IA Perplexity, confirmou na plataforma social X: "Perplexity está fora do ar agora, a causa raiz é um problema da AWS. Estamos trabalhando para resolvê-lo."

Plataformas de tecnologia financeira também sofreram um grande impacto. Aplicativos de pagamento móvel como Venmo, bancos digitais como Chime, exchanges de criptomoedas como Coinbase e plataformas de negociação de ações como Robinhood relataram interrupções de serviço. Clientes de vários bancos no Reino Unido relataram não conseguir fazer pagamentos com cartão, e o Bank of Scotland pediu desculpas aos clientes nas redes sociais.

Setores Social, de Jogos e Educação Totalmente Prejudicados

Aplicativos de mídia social e comunicação foram amplamente paralisados. Usuários do Snapchat continuaram a enfrentar problemas técnicos, e Meredith Whittaker, presidente do aplicativo de comunicação criptografada Signal, confirmou que a interrupção do serviço estava relacionada à falha da AWS. Plataformas de videoconferência como Zoom, ferramentas de colaboração como Slack e plataformas de design como Canva também tiveram problemas de conexão.

A indústria de jogos também não foi poupada. Jogos populares como Fortnite, Roblox, Pokemon GO e a loja Epic Games relataram falhas de login e conexão. A plataforma de aprendizado online Canvas, usada por milhares de universidades e escolas K-12 nos EUA, ficou inacessível devido à falha, exibindo um aviso de "Evento Contínuo da AWS" até as 14:30 ET, afetando a capacidade dos alunos de enviar trabalhos e acessar materiais do curso.

Dispositivos Inteligentes e Serviços Corporativos Paralisados

A assistente inteligente da própria Amazon, Alexa, ficou completamente sem resposta, e os usuários não conseguiam controlar dispositivos de casa inteligente por voz. Serviços como a campainha inteligente Ring e o Amazon Prime Video também apresentaram problemas. O sistema de autoatendimento de check-in do Aeroporto LaGuardia de Nova York ficou inoperante, resultando em longas filas de passageiros.

Sites do governo britânico, incluindo o HMRC (Her Majesty's Revenue and Customs) e o site oficial do governo, tiveram problemas de acesso. Centenas de serviços, como o aplicativo de transporte Lyft, o aplicativo de entrega de comida McDonald's e o aplicativo de namoro Hinge, foram afetados.

De acordo com dados do site de rastreamento de falhas Downdetector, mais de 11 milhões de relatórios de falha foram acumulados globalmente, com o número de relatórios diários no pico ultrapassando 50.000.

Causa Raiz Técnica e Processo de Recuperação

Em atualizações posteriores, a AWS revelou que a causa raiz da falha foi um problema em um "subsistema interno subjacente responsável por monitorar a saúde dos balanceadores de carga de rede". A falha deste componente central desencadeou uma reação em cadeia, levando primeiro a falhas na resolução de DNS do DynamoDB e, subsequentemente, afetando a inicialização de instâncias EC2 (Elastic Compute Cloud).

Às 08:43 ET, a AWS declarou que havia "reduzido o escopo da causa raiz dos problemas de conectividade de rede". Para evitar sobrecarga adicional, a empresa implementou medidas de limitação de taxa para novas solicitações de inicialização de instâncias EC2. Durante o processo de recuperação, a AWS removeu gradualmente as limitações, mas a fila de solicitações acumuladas na plataforma de computação sem servidor Lambda exigiu tempo adicional para ser processada.

Na atualização final às 18:00 ET, a AWS confirmou: "Os serviços voltaram à operação normal" e afirmou que as limitações de inicialização de instâncias EC2 foram restauradas aos níveis pré-incidente.

Reação da Indústria e Alerta

O especialista em segurança cibernética Christian Espinosa observou: "Esta falha massiva que afetou a AWS e as principais plataformas do Reino Unido é um lembrete severo de que o mundo digital é construído sobre uma base surpreendentemente frágil. A concentração de serviços em nuvem – onde poucos provedores hospedam a maioria dos sistemas críticos – cria pontos únicos de falha. Quando uma região de dados ou um provedor falha, a reação em cadeia se espalha por tudo, desde o varejo, finanças, logística e comunicações."

Mehdi Daoudi, CEO da empresa de monitoramento de desempenho da internet Catchpoint, afirmou que as perdas econômicas desta falha ainda estão por ser avaliadas, mas podem ser "extremamente significativas".

Durante a falha, o CEO da Tesla, Elon Musk, publicou conteúdo sarcástico na plataforma X, enfatizando que sua plataforma social não foi afetada e retuitou um meme zombando do fundador da Amazon, Jeff Bezos.

A AWS detém aproximadamente 30% do mercado global de computação em nuvem, formando um cenário de três grandes com Microsoft Azure e Google Cloud. Este incidente ocorreu na região US-EAST-1 da AWS – um dos principais hubs de tráfego da internet global. Analistas apontaram que muitas empresas não implementaram adequadamente mecanismos de redundância entre regiões ou entre provedores de nuvem, o que amplificou o impacto do ponto único de falha.

Esta não é a primeira vez que a AWS sofre uma falha significativa na região US-EAST-1. Em 2020, 2021 e 2023, esta região também experimentou incidentes que levaram a interrupções massivas de serviço.

Perspectivas Futuras

Espera-se que esta falha acelere a transição das empresas para estratégias multi-cloud e híbridas, a fim de reduzir o risco de dependência de um único provedor de serviços em nuvem. Especialistas da indústria preveem um possível aumento no seguro de interrupção de negócios especificamente para falhas de serviços em nuvem.

A AWS declarou que conduzirá uma investigação completa sobre o incidente e prometeu melhorar a redundância do sistema e os mecanismos de recuperação de falhas. Até a noite de 20 de outubro ET, todos os serviços haviam sido restaurados à normalidade, mas esta interrupção global de várias horas reacendeu a discussão sobre os riscos da centralização excessiva da infraestrutura da internet.