Partilhar via


Tutorial: Usar um notebook com o Apache Spark para consultar um banco de dados KQL

Os blocos de notas são documentos legíveis que contêm descrições e resultados da análise de dados e documentos executáveis que podem ser executados para executar a análise de dados. Neste artigo, você aprenderá a usar um bloco de anotações do Microsoft Fabric para ler e gravar dados em um banco de dados KQL usando o Apache Spark. Este tutorial usa conjuntos de dados e blocos de anotações pré-criados nos ambientes de Inteligência em Tempo Real e Engenharia de Dados no Microsoft Fabric. Para obter mais informações sobre blocos de anotações, consulte Como usar blocos de anotações do Microsoft Fabric.

Especificamente, você aprende a:

  • Criar um banco de dados KQL
  • Importar um bloco de notas
  • Gravar dados em um banco de dados KQL usando o Apache Spark
  • Consultar dados de um banco de dados KQL

Pré-requisitos

1- Crie um banco de dados KQL

  1. Abra o seletor de experiência na parte inferior do painel de navegação e selecione Inteligência em Tempo Real.

  2. Selecione o bloco Banco de Dados KQL.

    Captura de tela do novo bloco de banco de dados KQL em Inteligência em Tempo Real.

  3. No campo Nome do banco de dados KQL, digite nycGreenTaxi e selecione Criar.

    O banco de dados KQL é criado dentro do contexto do espaço de trabalho selecionado.

  4. Copie o URI de consulta do cartão de detalhes do banco de dados no painel do banco de dados e cole-o em algum lugar, como um bloco de notas, para usar em uma etapa posterior.

     Captura de tela do cartão de detalhes do banco de dados que mostra os detalhes do banco de dados. A opção Consultar URI intitulada Copiar URI está realçada.

2- Faça o download do notebook NYC GreenTaxi

Criamos um bloco de anotações de exemplo que leva você por todas as etapas necessárias para carregar dados em seu banco de dados usando o conector Spark.

  1. Abra o repositório de amostras de malha no GitHub para baixar o notebook NYC GreenTaxi KQL.

    Captura de tela do repositório GitHub mostrando o notebook GreenTaxi de Nova York. A opção Raw é realçada.

  2. Guarde o bloco de notas localmente no seu dispositivo.

    Nota

    O bloco de notas tem de ser guardado .ipynb no formato de ficheiro.

3- Importe o notebook

O restante desse fluxo de trabalho ocorre na seção Engenharia de Dados do produto e usa um bloco de anotações do Spark para carregar e consultar dados em seu banco de dados KQL.

  1. Abra o seletor de experiência na parte inferior do painel de navegação e selecione Desenvolver e, em seguida, seu espaço de trabalho.

  2. Selecione Importar>bloco de anotações>deste computador>Carregar e, em seguida, escolha o bloco de anotações do NYC GreenTaxi que você baixou em uma etapa anterior.

    Captura de ecrã da janela Estado de importação. O botão intitulado Upload está realçado.

  3. Quando a importação estiver concluída, abra o bloco de notas a partir da sua área de trabalho.

4- Obter dados

Para consultar seu banco de dados usando o conector Spark, você precisa conceder acesso de leitura e gravação ao contêiner de blob GreenTaxi de Nova York.

Selecione o botão de reprodução para executar as seguintes células ou selecione a célula e pressione Shift+ Enter. Repita esta etapa para cada célula de código.

Nota

Aguarde até que a marca de verificação de conclusão apareça antes de executar a próxima célula.

  1. Execute a célula a seguir para habilitar o acesso ao contêiner de blob GreenTaxi de Nova York.

    Captura de tela da primeira célula de código mostrando informações de acesso ao armazenamento.

  2. Em KustoURI, cole o URI de consulta que você copiou anteriormente em vez do texto de espaço reservado.

  3. Altere o nome do banco de dados de espaço reservado para nycGreenTaxi.

  4. Altere o nome da tabela de espaço reservado para GreenTaxiData.

    Captura de tela da segunda célula de código mostrando as informações do banco de dados de destino. O URI de consulta, o nome do banco de dados e o nome da tabela são realçados.

  5. Execute a célula.

  6. Execute a próxima célula para gravar dados no banco de dados. Pode levar alguns minutos para que esta etapa seja concluída.

    Captura de tela da terceira célula de código mostrando o mapeamento da tabela e o comando de ingestão.

Seu banco de dados agora tem dados carregados em uma tabela chamada GreenTaxiData.

5- Execute o notebook

Execute as duas células restantes sequencialmente para consultar dados da tabela. Os resultados mostram as 20 tarifas e distâncias de táxi mais altas e mais baixas registadas por ano.

Captura de ecrã da quarta e quinta células de código que mostram os resultados da consulta.

6- Limpar recursos

Limpe os itens criados navegando até o espaço de trabalho no qual foram criados.

  1. No seu espaço de trabalho, passe o mouse sobre o bloco de anotações que deseja excluir, selecione o menu Mais [...] >Suprimir.

    Captura de tela do espaço de trabalho mostrando o menu suspenso do notebook GreenTaxi de Nova York. A opção intitulada Excluir está realçada.

  2. Selecione Eliminar. Não é possível recuperar o bloco de notas depois de o eliminar.