Por que as interrupções na nuvem são um problema tão persistente

A redundância de hardware pode proteger contra falhas de componentes, mas não ajuda muito quando a interrupção decorre de uma configuração incorreta, de um erro de automação, de uma alteração de rede defeituosa ou de uma dependência subestimada do plano de controle. Nesses casos, a própria infra-estrutura pode permanecer intacta enquanto o sistema que a governa entra em colapso. A indústria está aprendendo que a resiliência tem menos a ver com a duplicação de equipamentos e mais com o gerenciamento da complexidade. Os ambientes cada vez mais distribuídos e definidos por software de hoje não podem operar com segurança em escala.

Falhas no nível operacional

As conclusões da Uptime mostram que a energia continua a ser a principal causa de grandes interrupções, sublinhando que a engenharia de infra-estruturas tradicional ainda é muito importante. Mas mesmo que os fornecedores continuem a melhorar a resiliência física, ainda podem surgir interrupções das camadas digitais e processuais acima deles. As plataformas de nuvem são agora pilhas densas de serviços, APIs, sistemas de orquestração, redes definidas por software, controles de identidade, lógica de failover e dependências de terceiros. Essa complexidade cria mais pontos possíveis de interação e mais oportunidades para que um erro em uma camada se espalhe em várias outras.

Isso ajuda a explicar por que as interrupções podem parecer mais surpreendentes hoje do que há uma década. Em modelos de data center mais antigos, uma interrupção geralmente tinha uma causa raiz mais aparente, como um evento de energia, uma falha de resfriamento ou uma falha de hardware. Em ambientes de nuvem, o gatilho pode ser uma pequena alteração na configuração que se propaga entre regiões, uma atualização de política que bloqueia involuntariamente a comunicação do serviço ou uma falha no controle da rede que afeta serviços aparentemente não relacionados. Estas não são falhas de capacidade bruta de infra-estrutura. São falhas no gerenciamento da complexidade.

A linguagem do relatório em torno do gerenciamento de mudanças e da configuração incorreta é especialmente importante porque desafia uma das suposições mais comuns no mercado de nuvem: essa escala produz automaticamente melhores resultados operacionais. A realidade? A escala pode ampliar os pontos fortes e fracos. Os grandes provedores de nuvem têm mais talentos em engenharia, ferramentas mais sofisticadas e mais redundância do que quase qualquer cliente empresarial. Mas também executam muito mais sistemas interligados, a velocidades muito maiores e com muito mais automação. Uma única falha no processo pode ter um raio de explosão mais amplo.