Partilhar via


Ingerir dados no OneLake e analisar com o Azure Databricks

Neste guia, você irá:

  • Crie um pipeline em um espaço de trabalho e ingira dados em seu OneLake no formato Delta.

  • Leia e modifique uma tabela Delta no OneLake com o Azure Databricks.

Pré-requisitos

Antes de começar, você deve ter:

  • Um espaço de trabalho com um item Lakehouse.

  • Um espaço de trabalho premium do Azure Databricks. Apenas os espaços de trabalho premium do Azure Databricks suportam a passagem de credenciais do Microsoft Entra. Ao criar seu cluster, habilite a passagem de credenciais do Armazenamento do Azure Data Lake nas Opções Avançadas.

  • Um conjunto de dados de exemplo.

Ingerir dados e modificar a tabela Delta

  1. Navegue até a sua casa do lago no serviço do Power BI e selecione Obter dados e, em seguida, selecione Novo pipeline de dados.

    Captura de tela mostrando como navegar para a nova opção de pipeline de dados de dentro da interface do usuário.

  2. No prompt Novo Pipeline, insira um nome para o novo pipeline e selecione Criar.

  3. Para este exercício, selecione os dados de exemplo NYC Taxi - Green como a fonte de dados e, em seguida, selecione Avançar.

    Captura de tela mostrando como selecionar o modelo semântico de exemplo de NYC.

  4. No ecrã de pré-visualização, selecione Seguinte.

  5. Para o destino dos dados, selecione o nome da casa do lago que você deseja usar para armazenar os dados da tabela OneLake Delta. Você pode escolher uma casa de lago existente ou criar uma nova.

    Captura de tela mostrando como selecionar o destino lakehouse.

  6. Selecione onde deseja armazenar a saída. Escolha Tabelas como a pasta raiz e digite "nycsample" como o nome da tabela.

  7. No ecrã Rever + Guardar, selecione Iniciar transferência de dados imediatamente e, em seguida, selecione Guardar + Executar.

    Captura de ecrã a mostrar como introduzir o nome da tabela.

  8. Quando o trabalho estiver concluído, navegue até a casa do lago e visualize a tabela delta listada na pasta /Tables.

  9. Clique com o botão direito do mouse no nome da tabela criada, selecione Propriedades e copie o caminho do Sistema de Arquivos de Blob do Azure (ABFS).

  10. Abra seu bloco de anotações do Azure Databricks. Leia a tabela Delta no OneLake.

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. Atualize os dados da tabela Delta alterando um valor de campo.

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;