Partilhar via


Transforme dados com o Apache Spark e consulte com SQL

Neste guia, você irá:

  • Carregue dados para o OneLake com o explorador de arquivos do OneLake.

  • Use um bloco de anotações de malha para ler dados no OneLake e gravar novamente como uma tabela Delta.

  • Analise e transforme dados com o Spark usando um bloco de anotações Fabric.

  • Consulte uma cópia dos dados no OneLake com SQL.

Pré-requisitos

Antes de começar, deve:

  • Transfira e instale o explorador de ficheiros OneLake.

  • Crie um espaço de trabalho com um item Lakehouse.

  • Faça o download do conjunto de dados WideWorldImportersDW. Você pode usar o Gerenciador de Armazenamento do Azure para se conectar e https://fabrictutorialdata.blob.core.windows.net/sampledata/WideWorldImportersDW/csv/full/dimension_city baixar o conjunto de arquivos csv. Ou você pode usar seus próprios dados csv e atualizar os detalhes conforme necessário.

Nota

Sempre crie, carregue ou crie um atalho para dados do Delta-Parquet diretamente na seção Tabelas da casa do lago. Não aninhar suas tabelas em subpastas na seção Tabelas, pois a casa do lago não a reconhecerá como uma tabela e a rotulará como Não identificada.

Carregar, ler, analisar e consultar dados

  1. No explorador de arquivos do OneLake, navegue até sua casa do lago e, sob o /Files diretório, crie um subdiretório chamado dimension_city.

    Captura de ecrã da nova pasta criada no explorador de ficheiros OneLake.

  2. Copie seus arquivos csv de exemplo para o diretório OneLake usando o explorador /Files/dimension_city de arquivos OneLake.

    Captura de ecrã da cópia de ficheiros para o OneLake no explorador de ficheiros.

  3. Navegue até a sua casa do lago no serviço do Power BI e exiba seus arquivos.

    Captura de tela da visualização de arquivos no lakehouse in Fabric.

  4. Selecione Abrir bloco de notas e, em seguida , Novo bloco de notas para criar um bloco de notas.

    Captura de ecrã a mostrar a criação de um novo bloco de notas no Fabric.

  5. Usando o bloco de anotações de malha, converta os arquivos CSV para o formato Delta. O trecho de código a seguir lê dados do diretório /Files/dimension_city criado pelo usuário e os converte em uma tabela dim_cityDelta.

    import os
    from pyspark.sql.types import *
    for filename in os.listdir("/lakehouse/default/Files/<replace with your folder path>"):
    df=spark.read.format('csv').options(header="true",inferSchema="true").load("abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Files/<folder name>/"+filename,on_bad_lines="skip")
    df.write.mode("overwrite").format("delta").save("Tables/<name of delta table>")
    
  6. Para ver a nova tabela, atualize a exibição do /Tables diretório.

    Captura de tela de uma mesa de visualização em uma casa de lago em Fabric.

  7. Consulte sua tabela com o SparkSQL no mesmo bloco de anotações de malha.

    %%sql
    SELECT * from <replace with item name>.dim_city LIMIT 10;
    
  8. Modifique a tabela Delta adicionando uma nova coluna chamada newColumn com número inteiro do tipo de dados. Defina o valor de 9 para todos os registros desta coluna recém-adicionada.

    %%sql
    
    ALTER TABLE <replace with item name>.dim_city ADD COLUMN newColumn int;
    
    UPDATE <replace with item name>.dim_city SET newColumn = 9;
    
    SELECT City,newColumn FROM <replace with item name>.dim_city LIMIT 10;
    
  9. Você também pode acessar qualquer tabela Delta no OneLake por meio de um ponto de extremidade de análise SQL. Um ponto de extremidade de análise SQL faz referência à mesma cópia física da tabela Delta no OneLake e oferece a experiência T-SQL. Selecione o ponto de extremidade de análise SQL para lakehouse1 e, em seguida, selecione Nova Consulta SQL para consultar a tabela usando T-SQL.

    SELECT TOP (100) * FROM [<replace with item name>].[dbo].[dim_city];