Problemas na manha de sábado, dia 23

  • Categoria do post:Notícias

Prezados clientes e parceiros,

No dia 23 de setembro de 2023, às 7h13 da manhã, ocorreu um incidente elétrico em nosso Data Center (DC) que acabou ocasionando a queda de todos os nobreaks por volta das 7h40, afetando todos os nossos servidores e, consequentemente, impactando nossos serviços, como sites, emails, DNS, banco de dados, sistemas de monitoramento, entre outros.

Às 8h, nossa equipe de técnicos já estava no local a fim de identificar a causa raiz do problema.

Vale ressaltar que, diante de falta de energia elétrica, contamos com geradores a diesel que são projetados para manter todo o Data Center em funcionamento por um período prolongado, sem a necessidade de reabastecimento. E o mesmo não entrou em operação, até então, por motivos desconhecidos.

Ligando manualmente o gerador, os nobreaks voltavam a operar mas com o gerador desligado, usando a energia da CPFL, não entrava, ficavam “estalando” e piscando todos os LEDs sem indicar uma causa real do problema. Os nobreaks utilizados são da marca APC, conhecidos pela sua qualidade e confiabilidade (O desligamento dos nobreaks ocorreu de maneira intencional para proteger a carga, ou seja, nossos servidores).

Até identificar a causa real, mantivemos então o gerador ativo por um período para recarregar os nobreaks. O processo de reinicialização dos servidores é um procedimento demorado, uma vez que envolve múltiplos servidores, cada um com seu próprio tempo de inicialização. Além disso, o sistema operacional VMware deve ser carregado antes que as máquinas virtuais possam ser iniciadas, e essas ainda precisam iniciar seguindo uma ordem específica.

Como resultado desse esforço conjunto, nossos serviços foram parcialmente restaurados por volta das 9h30, com plena recuperação ocorrendo às 9h45.

Retrocedendo ao evento, às 8h30 identificamos que o cabo neutro da CPFL estava rompido no poste. Este cabo estava excessivamente tensionado entre o poste da CPFL e o poste padrão localizado dentro de nossas instalações. Presumivelmente, o cabo neutro deveria estar preso pela “pontinha” com o cabo interno, o que levou à sua ruptura nessa manhã. Encontramos no chão da calçada a presilha de alumínio que conectava os dois cabos, a qual também estava danificada (rachada).

Imediatamente, notificamos a CPFL, que providenciou o reparo do cabo. A energia foi restaurada pela CPFL e desligamos o gerador por volta das 10h da manhã, após confirmar que tudo estava normalizado.

Neste momento, estamos investigando como monitorar essa falha de forma proativa, a fim de receber alertas em caso de ocorrências similares no futuro.

Apenas para exemplificar (quem for da área pode confirmar isso), na falta de uma das Fases, o gerador teria detectado a falta de energia e entrado no ar, porem com o rompimento do neutro isso não ocorre uma vez que monitorando fase-neutro você ainda consegue medir 127V devido ao neutro estar equalizado com nosso aterramento.

Além disso, quando os nobreaks tentaram entrar em operação, eles geraram um retorno de alta corrente no sistema de aterramento, o que foi detectado por outros equipamentos, resultando no travamento ou desligamento desses nobreaks, conforme relatado.

Essa é uma situação de difícil detecção e altamente problemática. Tanto que o neutro sequer passa por disjuntor (pode ver em sua residência, caso use 127V, o neutro nunca é interrompido, pois sem ele, voltagens fora do normal poderão ocorrer na linha fase-neutro, gerando problemas).

Estamos comprometidos em aprimorar nossos sistemas de monitoramento e infraestrutura para evitar recorrências de incidentes dessa natureza e manter a estabilidade e confiabilidade de nossos serviços.

Atenciosamente,
Specialist Linux Solutions

Compartilhe isso: