Ingerir dados no OneLake e analisar com o Azure Databricks

Artigo
07/26/2024

Neste guia, você irá:

Crie um pipeline em um espaço de trabalho e ingira dados em seu OneLake no formato Delta.
Leia e modifique uma tabela Delta no OneLake com o Azure Databricks.

Pré-requisitos

Antes de começar, você deve ter:

Um espaço de trabalho com um item Lakehouse.
Um espaço de trabalho premium do Azure Databricks. Apenas os espaços de trabalho premium do Azure Databricks suportam a passagem de credenciais do Microsoft Entra. Ao criar seu cluster, habilite a passagem de credenciais do Armazenamento do Azure Data Lake nas Opções Avançadas.
Um conjunto de dados de exemplo.

Ingerir dados e modificar a tabela Delta

Navegue até a sua casa do lago no serviço do Power BI e selecione Obter dados e, em seguida, selecione Novo pipeline de dados.
No prompt Novo Pipeline, insira um nome para o novo pipeline e selecione Criar.
Para este exercício, selecione os dados de exemplo NYC Taxi - Green como a fonte de dados e, em seguida, selecione Avançar.
No ecrã de pré-visualização, selecione Seguinte.
Para o destino dos dados, selecione o nome da casa do lago que você deseja usar para armazenar os dados da tabela OneLake Delta. Você pode escolher uma casa de lago existente ou criar uma nova.
Selecione onde deseja armazenar a saída. Escolha Tabelas como a pasta raiz e digite "nycsample" como o nome da tabela.
No ecrã Rever + Guardar, selecione Iniciar transferência de dados imediatamente e, em seguida, selecione Guardar + Executar.
Quando o trabalho estiver concluído, navegue até a casa do lago e visualize a tabela delta listada na pasta /Tables.
Clique com o botão direito do mouse no nome da tabela criada, selecione Propriedades e copie o caminho do Sistema de Arquivos de Blob do Azure (ABFS).

Abra seu bloco de anotações do Azure Databricks. Leia a tabela Delta no OneLake.

olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
df.show(5)

Atualize os dados da tabela Delta alterando um valor de campo.

%sql
update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;

Transforme dados com o Apache Spark e consulte com SQL

Partilhar via

Ingerir dados no OneLake e analisar com o Azure Databricks

Pré-requisitos

Ingerir dados e modificar a tabela Delta

Comentários

Recursos adicionais

Partilhar via

Ingerir dados no OneLake e analisar com o Azure Databricks

Pré-requisitos

Ingerir dados e modificar a tabela Delta

Conteúdos relacionados

Comentários

Recursos adicionais