Bancos de dados sem disco: o que acontece quando o armazenamento não é o gargalo

Em 2021, eu estava desenvolvendo software para um fabricante aeroespacial e me reuni com nossa equipe de aprendizado de máquina para discutir abordagens inovadoras para rastrear FOD (detritos em órbita livre), uma grande preocupação operacional e de segurança na indústria. O que me impressionou não foram os algoritmos ou equipamentos de rastreamento, mas os terabytes de dados (até petabytes) que estavam sendo produzidos.

Os problemas tradicionais de recursos de hardware limitados e compressão de dados ineficiente estavam dificultando tanto os modelos de aprendizagem visual de ponta quanto as soluções tradicionais de rastreamento. A equipe era inteligente e conseguia fazer ajustes rapidamente, mas o verdadeiro desafio era garantir que nossa infraestrutura pudesse ser dimensionada com eles.

Na indústria aeroespacial, o desempenho depende da rapidez com que os sistemas podem absorver e interpretar fluxos massivos de telemetria, e o armazenamento costuma ser o limitador silencioso. Ao gerar terabytes a petabytes de dados em um único ciclo de teste, até mesmo uma breve paralisação na camada de armazenamento se torna um gargalo. Alguns milissegundos de atraso entre o que está acontecendo e o que o sistema pode gravar, indexar ou recuperar não apenas retardam as coisas. Ele pode se agravar durante uma corrida inteira.