Em 2023, empresas de todos os setores investiram pesadamente em provas de conceitos (POCs) de IA generativa, ansiosas por explorar o potencial da tecnologia. Avançando para 2024, as empresas enfrentam um novo desafio: passar as iniciativas de IA do protótipo para a produção.
De acordo com o Gartner, até 2025, pelo menos 30% dos projetos de IA generativa serão abandonados após a fase POC. As razões? Má qualidade dos dados, lacunas de governação e ausência de valor comercial claro. As empresas estão agora a perceber que o principal desafio não é simplesmente construir modelos – é garantir a qualidade dos dados que alimentam esses modelos. À medida que as empresas pretendem passar do protótipo à produção de modelos, apercebem-se de que o maior obstáculo é a curadoria dos dados corretos.
Mais dados nem sempre são melhores
Nos primeiros dias do desenvolvimento da IA, a crença predominante era que mais dados levavam a melhores resultados. No entanto, à medida que os sistemas de IA se tornaram mais sofisticados, a importância da qualidade dos dados ultrapassou a da quantidade. Existem várias razões para esta mudança. Em primeiro lugar, grandes conjuntos de dados estão frequentemente repletos de erros, inconsistências e preconceitos que podem distorcer inadvertidamente os resultados do modelo. Com um excesso de dados, torna-se difícil controlar o que o modelo aprende, potencialmente levando-o a fixar-se no conjunto de treino e reduzindo a sua eficácia com novos dados. Em segundo lugar, o “conceito maioritário” dentro do conjunto de dados tende a dominar o processo de formação, diluindo as percepções dos conceitos minoritários e reduzindo a generalização do modelo. Em terceiro lugar, o processamento de grandes conjuntos de dados pode retardar os ciclos de iteração, o que significa que as decisões críticas demoram mais tempo à medida que a quantidade de dados aumenta. Finalmente, o processamento de grandes conjuntos de dados pode ser caro, especialmente para organizações menores ou startups.