Além de uma interrupção: ações e recursos

Tornou-se clichê dizer que a nuvem é a espinha dorsal da transformação digital, mas interrupções na nuvem, como o recente incidente da AWS, tornam a dependência das empresas na nuvem dolorosamente clara. A interrupção da AWS na semana passada impactou milhares de empresas em todo o mundo, desde provedores de SaaS até empresas de comércio eletrônico. Os fluxos de receita foram interrompidos ou evaporados, as experiências dos clientes pioraram e as reputações das marcas estavam em jogo.

Para as empresas que sofrem perdas financeiras diretas devido a qualquer interrupção, a frustração é profunda. Como alguém que aconselha organizações sobre arquitetura de nuvem há décadas, ouço frequentemente a mesma pergunta após estes eventos: O que podemos fazer para recuperar as nossas perdas e evitar perturbações devastadoras no futuro?

O primeiro passo para qualquer empresa é reunir os fatos sobre a interrupção e seu impacto. Provedores de nuvem como a AWS são rápidos em produzir relatórios de incidentes e atualizações públicas que geralmente detalham o que deu errado, quanto tempo levou para ser resolvido e quais serviços foram afetados. É fácil se distrair com a culpa, mas compreender as realidades técnicas e contratuais lhe dá a melhor chance de um recurso eficaz. Para as empresas, as principais informações a recolher são:

Quais serviços ou cargas de trabalho foram impactados e por quanto tempo?
Quais foram as consequências comerciais diretas? Transações perdidas, desgaste de clientes ou custos posteriores?
O que o seu acordo de nível de serviço (SLA) realmente garante e a interrupção violou essas garantias?

Não basta saber que “a nuvem caiu”. As especificidades – duração, zonas afetadas, criticidade da funcionalidade do negócio – determinarão seus próximos passos.

SLAs de nuvem e compensação

Esta é uma das duras realidades que encontrei: a maioria das empresas superestima o que seus contratos de nuvem pública garantem. AWS, Azure e Google Cloud (juntamente com outros hiperescaladores) oferecem SLAs bem definidos, mas a compensação por interrupções é quase sempre limitada e raramente cobre as perdas reais do negócio.

Normalmente, os SLAs oferecem créditos de serviço com base em uma porcentagem do uso mensal afetado. Por exemplo, se seu aplicativo Web ficar indisponível por duas horas e o SLA indicar “99,99% de tempo de atividade”, você poderá receber um crédito percentual para uso futuro. Estes créditos são melhores do que nada, mas para as empresas que enfrentam perdas de seis dígitos devido a uma grande interrupção, são apenas uma gota no oceano.

É importante reconhecer que a compensação normalmente exige que você registre uma reclamação, muitas vezes dentro de um prazo limitado, e depende da sua capacidade de demonstrar impacto direto. Os fornecedores não cobrirão danos consequenciais ou indiretos, como perda de vendas, penalidades contratuais de seus próprios clientes ou danos à sua marca. Esses são os seus problemas, não os deles. Embora isso seja difícil de aceitar, entendê-lo desde o início é melhor do que ser pego de surpresa.

Limites do recurso legal

Você poderia ir mais longe e entrar com uma ação legal? A resposta raramente é satisfatória. O contrato padrão de nuvem, elaborado por enxames de advogados bem pagos, limita fortemente a responsabilidade do provedor. A maioria dos termos de serviço exclui explicitamente a responsabilidade por perdas indiretas e indiretas e limita os danos diretos ao valor que você pagou no mês anterior. A menos que o fornecedor tenha agido de má fé ou com negligência grave – o que é muito difícil de provar – os tribunais tendem a manter estes contratos.

Ocasionalmente, se a interrupção tiver impactos mais amplos, como uma plataforma financeira amplamente utilizada que solicita escrutínio regulatório, poderão ocorrer casos de alto perfil. Mas para a maioria das empresas, o único recurso realista é através do processo de crédito SLA. Perseguir uma ação judicial não só acarreta custos legais substanciais, mas raramente vale a pena o seu tempo em comparação com os danos menores que você pode recuperar.

Avalie sua estratégia de continuidade de negócios

A próxima etapa é avaliar o perfil de risco e a arquitetura de nuvem da sua organização. No mundo da tecnologia, o ditado “Não coloque todos os ovos na mesma cesta” é tão importante para a computação quanto para os investimentos. Embora as equipes de engenharia de nuvem muitas vezes acreditem na natureza robusta e distribuída da nuvem pública, as interrupções expõem verdades incômodas: implantações em uma única região, mecanismos de failover insuficientes e a falta de estratégias multicloud ou híbridas muitas vezes deixam as empresas vulneráveis.

É fundamental realizar uma autópsia honesta. Quais sistemas falharam e por quê? Você confiou exclusivamente em um único provedor de nuvem ou região, sem replicação ou fallback adequados? As suas próprias medidas de resiliência, como o failover automatizado, funcionaram na prática e também no planejamento?

Muitas organizações percebem tarde demais que seu backup na nuvem estava mal configurado, que os sistemas críticos não tinham um design redundante ou que seus manuais de recuperação de desastres estavam desatualizados ou não foram testados. Estas lacunas transformam a interrupção de um fornecedor numa crise que abrange toda a empresa.

Três passos para a verdadeira resiliência

Após uma interrupção na nuvem pública, as empresas devem eventualmente ir além da busca de compensação e desenvolver estratégias de proteção significativas. Com base nas lições deste e de incidentes anteriores, aqui estão três passos essenciais que toda organização deve seguir.

Primeiro, revise sua arquitetura e implante redundância real. Aproveite diversas zonas de disponibilidade em seu provedor de nuvem principal e considere seriamente a resiliência multirregional e até mesmo multicloud para suas cargas de trabalho mais críticas. Se a sua empresa não consegue tolerar períodos de inatividade prolongados, esses investimentos não são mais opcionais.

Em segundo lugar, revise e atualize seus planos de resposta a incidentes e recuperação de desastres. Os processos teóricos não são suficientes. Teste e simule regularmente interrupções nos níveis técnico e de processos de negócios. Certifique-se de que os manuais sejam precisos, as funções e responsabilidades sejam claras e que cada equipe saiba como agir sob estresse. Respostas rápidas e coordenadas podem fazer a diferença entre uma perturbação breve e uma catástrofe em grande escala.

Terceiro, entenda seus contratos de nuvem e SLAs e negociar melhores condições, se possível. Fale com seus fornecedores sobre acordos personalizados se sua escala puder justificá-los. Documente as interrupções com cuidado e registre as reclamações imediatamente. Mais importante ainda, leve em consideração os riscos reais – e não apenas o tempo de atividade “garantido” – nos SLAs do seu negócio e do cliente.

As interrupções na nuvem não são mais raras. À medida que as empresas aprofundam a sua confiança na nuvem, os riscos aumentam. As empresas mais resilientes tratarão cada interrupção como uma oportunidade de aprendizagem crucial para fortalecer as defesas técnicas e os acordos contratuais antes que o próximo problema ocorra. Como sempre, o melhor ataque é uma defesa forte.