Delen via


Een lakehouse maken voor Direct Lake

In dit artikel wordt beschreven hoe u een lakehouse maakt, een Delta-tabel maakt in lakehouse en vervolgens een eenvoudig semantisch model maakt voor het lakehouse in een Microsoft Fabric-werkruimte.

Lees Direct Lake-overzichtvoordat u aan de slag gaat met het maken van een lakehouse voor Direct Lake.

Een lakehouse maken

  1. Selecteer in uw Microsoft Fabric-werkruimte Nieuwe>Meer optiesen selecteer vervolgens in Data Engineeringde tegel Lakehouse.

    Schermafbeelding van de Lakehouse-tegel in Data Engineering.

  2. Voer in het dialoogvenster New Lakehouse een naam in en selecteer Maken. De naam mag alleen alfanumerieke tekens en onderstrepingstekens bevatten.

    Schermopname van het dialoogvenster New Lakehouse.

  3. Controleer of het nieuwe lakehouse is gemaakt en succesvol wordt geopend.

    Schermopname van Lakehouse die is gemaakt in de werkruimte.

Een Delta-tabel maken in het lakehouse

Nadat u een nieuw lakehouse hebt gemaakt, moet u ten minste één Delta-tabel maken, zodat Direct Lake toegang heeft tot bepaalde gegevens. Direct Lake kan bestanden met parquet-indeling lezen, maar voor de beste prestaties kunt u de gegevens het beste comprimeren met behulp van de VORDER-compressiemethode. VORDER comprimeert de gegevens met behulp van het systeemeigen compressie-algoritme van de Power BI-engine. Op deze manier kan de engine de gegevens zo snel mogelijk in het geheugen laden.

Er zijn meerdere opties voor het laden van gegevens in een lakehouse, waaronder gegevenspijplijnen en scripts. In de volgende stappen gebruik je PySpark om een Delta-tabel toe te voegen aan een lakehouse op basis van een Azure Open Dataset.

  1. Selecteer in het zojuist gemaakte Lakehouse Notitieblok openenen selecteer vervolgens Nieuw notitieblok.

    Schermafbeelding die de nieuwe notitieblok-opdracht toont.

  2. Kopieer en plak het volgende codefragment in de eerste codecel om SPARK toegang te geven tot het geopende model en druk vervolgens op Shift + Enter- om de code uit te voeren.

    # Azure storage access info
    blob_account_name = "azureopendatastorage"
    blob_container_name = "holidaydatacontainer"
    blob_relative_path = "Processed"
    blob_sas_token = r""
    
    # Allow SPARK to read from Blob remotely
    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set(
      'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
      blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    
    
  3. Controleer of de code met succes een blobpad op afstand produceert.

    Schermopname van uitvoer van extern blobpad.

  4. Kopieer en plak de volgende code in de volgende cel en druk op Shift + Enter.

    # Read Parquet file into a DataFrame.
    df = spark.read.parquet(wasbs_path)
    print(df.printSchema())
    
    
  5. Controleer of de code het DataFrame-schema heeft uitgevoerd.

    Schermopname van de uitvoer van het dataframeschema.

  6. Kopieer en plak de volgende regels in de volgende cel en druk op Shift + Enter. De eerste instructie maakt de VORDER-compressiemethode mogelijk en de volgende instructie slaat het DataFrame op als een Delta-tabel in het lakehouse.

    # Save as delta table 
    spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
    df.write.format("delta").saveAsTable("holidays")
    
    
  7. Controleer of alle SPARK-taken zijn voltooid. Vouw de lijst met SPARK-taken uit om meer details weer te geven.

    Schermopname met een uitgevouwen lijst met SPARK-taken.

  8. Als u wilt controleren of een tabel is gemaakt, selecteert u in het linkerbovenhoekgebied naast Tabellenhet beletselteken (...), selecteert u vervolgens Vernieuwenen vouwt u vervolgens het knooppunt Tabellen uit.

    Schermopname met de opdracht Vernieuwen in de buurt van het knooppunt Tabellen.

  9. Gebruik dezelfde methode als hierboven of andere ondersteunde methoden om meer Delta-tabellen toe te voegen voor de gegevens die u wilt analyseren.

Een eenvoudig Direct Lake-model maken voor uw lakehouse

  1. Selecteer in uw lakehouse Nieuw semantisch modelen selecteer vervolgens in het dialoogvenster tabellen die moeten worden opgenomen.

    Schermopname van het dialoogvenster om een nieuw model te maken.

  2. Selecteer Bevestig om het Direct Lake-model te genereren. Het model wordt automatisch opgeslagen in de werkruimte op basis van de naam van uw lakehouse en daarna wordt het model geopend.

    schermopname van het geopende model in Power BI.

  3. Selecteer Gegevensmodel openen om de webmodelleringservaring te openen, waar u tabelrelaties en DAX-metingen kunt toevoegen.

    schermopname van webmodellering in Power BI.

Wanneer u klaar bent met het toevoegen van relaties en DAX-metingen, kunt u vervolgens rapporten maken, een samengesteld model maken en query's uitvoeren op het model via XMLA-eindpunten op ongeveer dezelfde manier als elk ander model.