Transforme dados com o Apache Spark e consulte com SQL

Artigo
11/15/2023

Neste guia, você irá:

Carregue dados para o OneLake com o explorador de arquivos do OneLake.
Use um bloco de anotações de malha para ler dados no OneLake e gravar novamente como uma tabela Delta.
Analise e transforme dados com o Spark usando um bloco de anotações Fabric.
Consulte uma cópia dos dados no OneLake com SQL.

Pré-requisitos

Antes de começar, deve:

Transfira e instale o explorador de ficheiros OneLake.
Crie um espaço de trabalho com um item Lakehouse.
Faça o download do conjunto de dados WideWorldImportersDW. Você pode usar o Gerenciador de Armazenamento do Azure para se conectar e https://fabrictutorialdata.blob.core.windows.net/sampledata/WideWorldImportersDW/csv/full/dimension_city baixar o conjunto de arquivos csv. Ou você pode usar seus próprios dados csv e atualizar os detalhes conforme necessário.

Nota

Sempre crie, carregue ou crie um atalho para dados do Delta-Parquet diretamente na seção Tabelas da casa do lago. Não aninhar suas tabelas em subpastas na seção Tabelas, pois a casa do lago não a reconhecerá como uma tabela e a rotulará como Não identificada.

Carregar, ler, analisar e consultar dados

No explorador de arquivos do OneLake, navegue até sua casa do lago e, sob o /Files diretório, crie um subdiretório chamado dimension_city.
Copie seus arquivos csv de exemplo para o diretório OneLake usando o explorador /Files/dimension_city de arquivos OneLake.
Navegue até a sua casa do lago no serviço do Power BI e exiba seus arquivos.
Selecione Abrir bloco de notas e, em seguida , Novo bloco de notas para criar um bloco de notas.

Usando o bloco de anotações de malha, converta os arquivos CSV para o formato Delta. O trecho de código a seguir lê dados do diretório /Files/dimension_city criado pelo usuário e os converte em uma tabela dim_cityDelta.

import os
from pyspark.sql.types import *
for filename in os.listdir("/lakehouse/default/Files/<replace with your folder path>"):
df=spark.read.format('csv').options(header="true",inferSchema="true").load("abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Files/<folder name>/"+filename,on_bad_lines="skip")
df.write.mode("overwrite").format("delta").save("Tables/<name of delta table>")

Para ver a nova tabela, atualize a exibição do /Tables diretório.
Consulte sua tabela com o SparkSQL no mesmo bloco de anotações de malha.
```
%%sql
SELECT * from <replace with item name>.dim_city LIMIT 10;
```

Modifique a tabela Delta adicionando uma nova coluna chamada newColumn com número inteiro do tipo de dados. Defina o valor de 9 para todos os registros desta coluna recém-adicionada.

%%sql

ALTER TABLE <replace with item name>.dim_city ADD COLUMN newColumn int;

UPDATE <replace with item name>.dim_city SET newColumn = 9;

SELECT City,newColumn FROM <replace with item name>.dim_city LIMIT 10;

Você também pode acessar qualquer tabela Delta no OneLake por meio de um ponto de extremidade de análise SQL. Um ponto de extremidade de análise SQL faz referência à mesma cópia física da tabela Delta no OneLake e oferece a experiência T-SQL. Selecione o ponto de extremidade de análise SQL para lakehouse1 e, em seguida, selecione Nova Consulta SQL para consultar a tabela usando T-SQL.
```
SELECT TOP (100) * FROM [<replace with item name>].[dbo].[dim_city];
```

Conectar-se ao ADLS usando um atalho do OneLake

Partilhar via

Transforme dados com o Apache Spark e consulte com SQL

Pré-requisitos

Carregar, ler, analisar e consultar dados

Comentários

Recursos adicionais

Partilhar via

Transforme dados com o Apache Spark e consulte com SQL

Pré-requisitos

Carregar, ler, analisar e consultar dados

Conteúdos relacionados

Comentários

Recursos adicionais