Um passo acima de seu antecessor tradicional estão os dados semiestruturados, que surgiram em resposta à rigidez dos formatos baseados em tabelas. Os dados semiestruturados mantêm alguns elementos organizacionais dos dados estruturados, mas removem as restrições tabulares tradicionais. Esse tipo de dados impulsionou o crescimento e a popularidade de bancos de dados NoSQL, como Cassandra, MongoDB e Redis, que foram projetados para gerenciar estruturas de dados mais flexíveis.

Isso nos leva aos dados não estruturados, que se tornaram esmagadoramente o tipo de dados mais comum. Como o próprio nome indica, os dados não estruturados podem vir em qualquer forma ou formato, variam amplamente em tamanho e criam relacionamentos semânticos complexos. Assim, os dados não estruturados requerem uma abordagem muito diferente para processamento e gerenciamento.

Analisando mais profundamente a complexidade semântica, considere três fotos diferentes do mesmo objeto. Embora os dados brutos por trás de cada uma dessas fotos possam variar amplamente – tamanho do arquivo, número de pixels, resolução e assim por diante – seu significado semântico é o mesmo. É aí que reside o desafio do gerenciamento moderno de dados. Qual a melhor forma de armazenar, pesquisar e analisar conteúdo não com base em suas características técnicas, mas em seu significado?