Se há algo que uma empresa moderna precisa é de dados – o máximo possível. Começando com data warehouses e agora com data lakes, estamos usando ferramentas locais e na nuvem para gerenciar e analisar esses dados, preparando-os para fornecer os insights de negócios necessários.

Os dados são cada vez mais importantes hoje, pois agora são usados ​​para treinar e ajustar modelos de IA personalizados ou para fornecer bases essenciais para aplicações de IA existentes. O Fabric da Microsoft é uma plataforma de análise hospedada que se baseia em ferramentas de dados existentes, como o Azure Synapse, por isso não é surpreendente que a Microsoft tenha usado seu evento BUILD 2024 com foco em IA para revelar novos recursos direcionados ao suporte à análise em escala e aos requisitos de dados. de aplicações modernas de IA.

A Microsoft tem descrito o Fabric como uma plataforma que elimina a complexidade do trabalho com quantidades substanciais de dados, permitindo que você se concentre na análise e na obtenção de valor desses dados. Isso pode ser feito usando ferramentas como o Power BI para criar e compartilhar painéis baseados em dados, ou usar esses dados para treinar, testar e operar IAs personalizadas ou para fundamentar modelos de base de IA generativos existentes.

Embrulhando Icebergs em Tecido

Um dos novos recursos mais importantes foi adicionar suporte para mais formatos de dados para ajudar a integrar o Microsoft Fabric com outras plataformas de dados de grande escala. Até agora, o Fabric foi construído sobre o formato de dados Delta Parquet, gerenciado pela Linux Foundation e usado por muitas plataformas diferentes baseadas em lakehouse. Sua tecnologia de armazenamento de dados de código aberto permite combinar logs de transações com armazenamentos de objetos em nuvem em escala. Não há necessidade de usar armazenamentos de dados especializados; em vez disso, a sua escolha de motor de dados pode simplesmente funcionar com um ficheiro Delta Lake armazenado no Azure Blob Storage.

É um formato de dados importante, mas não é o único usado para gerenciar grandes quantidades de dados. Uma plataforma popular é a plataforma de dados em nuvem gerenciada da Snowflake, que usa o formato de tabela aberta Iceberg do Apache. Isso usa ferramentas semelhantes a SQL para gerenciar seu big data, permitindo editar rapidamente tabelas grandes e editar seu esquema atual.

Se o Microsoft Fabric for o centro de dados de IA no Azure, então ele precisa dar suporte ao maior número possível de fontes de dados. Portanto, um dos anúncios de plataforma de dados mais significativos no BUILD foi o suporte para Iceberg no ambiente de dados OneLake do Microsoft Fabric junto com o Delta Parquet, bem como ferramentas para um link bidirecional entre o Microsoft Fabric e o Snowflake, permitindo que você trabalhe com as ferramentas que você preferir.

Um aspecto importante do suporte do Fabric ao Iceberg é o uso de atalhos para traduzir metadados entre os dois formatos e permitir que consultas e ferramentas analíticas os tratem como uma única fonte, não importa onde estejam hospedados. Isso deve permitir que organizações com grandes conjuntos de dados existentes hospedados no Snowflake ou em outros ambientes Iceberg aproveitem o Microsoft Fabric e sua integração com ferramentas como o Azure AI Studio. Isso deve simplificar o processo de treinamento de modelos de IA em dados mantidos na nuvem do Snowflake, sem a necessidade de armazená-los em dois locais separados.

Essa mesma abordagem está sendo adotada tanto com as ferramentas de marketing baseadas em nuvem da Adobe quanto com o Azure Databricks. Como eles usam as ferramentas de atalho do Microsoft Fabric, você poderá trazer catálogos existentes do Databricks para o Fabric e, ao mesmo tempo, seus dados do OneLake ficarão visíveis como um catálogo no Azure Databricks. Isso permite que você use a ferramenta mais adequada para a tarefa que você precisa, com fluxos de trabalho que cruzam diferentes conjuntos de ferramentas sem comprometer seus dados.

Suporte aprimorado de dados em tempo real

Embora o Microsoft Fabric tivesse suporte básico para um tipo de dados chave (dados transmitidos em tempo real), eram necessárias duas ferramentas diferentes para usar esses dados de maneira eficaz. A execução de análises em dados em tempo real de seus sistemas de negócios e de sistemas industriais de Internet das Coisas pode fornecer insights rápidos que ajudam a detectar problemas antes que eles afetem seus negócios, especialmente quando vinculados a ferramentas que podem acionar alertas e ações quando seus dados indicarem problemas.

A nova ferramenta Real-Time Intelligence fornece um hub para trabalhar com dados transmitidos. Você pode considerá-lo o equivalente a um data lake para seus dados em tempo real, trazendo-os de diversas fontes e fornecendo um conjunto de ferramentas para gerenciar e transformar esses dados. O resultado é um ambiente de desenvolvimento sem código que usa a conhecida metáfora do conector para ajudar a construir caminhos para seus dados, extraindo informações e roteando os dados transmitidos para um data lake para análise posterior. Os dados transmitidos podem vir de dentro do Azure e de outras fontes de dados externas.

Essa abordagem ajuda você a extrair o valor máximo dos dados transmitidos. Ao acionar eventos remotos, você pode responder rapidamente, capturando fraudes em uma plataforma de comércio eletrônico ou detectando falhas incipientes em máquinas instrumentadas. Os dados tornam-se uma ferramenta para treinar novos modelos de IA que podem automatizar esses processos.

Consultas em linguagem natural com Copilots

A Microsoft vem adicionando uma interface de linguagem natural ao Fabric na forma de seu próprio Copilot. O objetivo é permitir que os usuários façam perguntas rápidas sobre seus dados de série temporal, gerando a Kusto Query Language (KQL) subjacente necessária para repetir ou refinar a consulta. De forma útil, essa abordagem ajuda você a aprender a usar KQL. Você pode ver rapidamente como uma consulta KQL se relaciona com sua pergunta inicial, o que permite que usuários inexperientes adquiram as habilidades necessárias de análise de dados.

Esse mesmo Copilot subjacente é usado para criar o novo recurso de habilidades de IA do Microsoft Fabric. Aqui você começa selecionando uma fonte de dados e, usando perguntas em linguagem natural e nenhuma configuração adicional, cria rapidamente consultas complexas, adicionando fontes e tabelas adicionais, conforme necessário. Novamente, a ferramenta de IA mostrará a consulta criada, permitindo que você faça edições e compartilhe o resultado com colegas. A Microsoft pretende disponibilizar essas habilidades para o Copilot Studio, oferecendo a você um ambiente de desenvolvimento completo e sem código para dados e fluxos de trabalho.

Adicionando APIs de aplicativos à análise do Microsoft Fabric

O Microsoft Fabric é uma importante ferramenta analítica e também oferece um hub para gerenciar e controlar seu big data, pronto para uso em outras aplicações. O que é necessário é uma maneira de anexar APIs a esses dados para que os endpoints do Fabric possam ser integrados ao seu código. Até agora, todas as APIs do Fabric eram APIs de gerenciamento RESTful, para construir suas próprias ferramentas administrativas. Este conjunto mais recente de atualizações permite adicionar suas próprias APIs GraphQL aos seus dados.

Data lakes e lakehouses podem conter muitos esquemas diferentes, portanto, o uso das definições de API baseadas em tipo do GraphQL possibilita a construção de APIs que funcionam em todos os seus dados do Fabric, retornando dados de todas as suas fontes em um único objeto JSON. Não há necessidade de seu código ter conhecimento dos dados em seu ambiente Fabric; o mecanismo de consulta do Fabric fornece toda a abstração necessária.

Criar uma API é um processo descomplicado. Dentro do ambiente de gerenciamento do Microsoft Fabric, comece nomeando sua API. Em seguida, escolha suas fontes e as tabelas que deseja expor. Isso cria o esquema GraphQL e você pode trabalhar no explorador de esquema integrado para definir as consultas e quaisquer relacionamentos necessários entre tabelas. Nem todas as fontes de dados do Fabric são suportadas no momento, mas você deve ser capaz de começar com o conjunto atual de endpoints analíticos, que permite fornecer acesso aos dados analíticos existentes. Isso permite que o Microsoft Fabric armazene dados, execute consultas analíticas, armazene resultados em tabelas e, em seguida, ofereça acesso de API a esses resultados.

Quando sua API estiver pronta, tudo que você precisa fazer é copiar o endpoint resultante e passá-lo aos desenvolvedores de aplicativos. Eles precisarão incluir autorizações apropriadas, garantindo que apenas usuários aprovados tenham acesso (especialmente importante se sua API permitir a modificação de dados).

Essas atualizações mais recentes do Microsoft Fabric preenchem muitas das lacunas óbvias da plataforma. Ao facilitar o trabalho com formatos de dados alternativos, incluindo dados transmitidos, agora você pode aproveitar os investimentos existentes, enquanto o suporte para APIs GraphQL oferece a oportunidade de criar aplicativos que podem funcionar com big data enquanto o Fabric lida com as consultas subjacentes nos bastidores.

Ao oferecer uma maneira de abstrair a complexidade associada aos dados em escala e ao fornecer agentes de IA, o Microsoft Fabric está demonstrando como uma plataforma de dados gerenciados pode permitir que você passe de dados brutos para aplicativos analíticos, independentemente de suas habilidades. Tudo que você precisa fazer é fazer perguntas.