Delen via


Gegevens opnemen in OneLake en analyseren met Azure Databricks

In deze handleiding gaat u het volgende doen:

  • Maak een pijplijn in een werkruimte en opname van gegevens in uw OneLake in Delta-indeling.

  • Een Delta-tabel lezen en wijzigen in OneLake met Azure Databricks.

Vereisten

Voordat u begint, moet u het volgende hebben:

  • Een werkruimte met een Lakehouse-item.

  • Een premium Azure Databricks-werkruimte. Alleen premium Azure Databricks-werkruimten ondersteunen Passthrough voor Microsoft Entra-referenties. Wanneer u uw cluster maakt, schakelt u azure Data Lake Storage-referentiepassthrough in in de geavanceerde opties.

  • Een voorbeeldgegevensset.

Gegevens opnemen en de Delta-tabel wijzigen

  1. Navigeer naar uw Lakehouse in de Power BI-service en selecteer Gegevens ophalen en selecteer vervolgens Nieuwe gegevenspijplijn.

    Schermopname die laat zien hoe u vanuit de gebruikersinterface naar de nieuwe gegevenspijplijnoptie navigeert.

  2. Voer in de prompt Nieuwe pijplijn een naam in voor de nieuwe pijplijn en selecteer Vervolgens Maken.

  3. Voor deze oefening selecteert u de NYC Taxi - Groene voorbeeldgegevens als de gegevensbron en selecteert u vervolgens Volgende.

    Schermopname die laat zien hoe u een semantisch nyc-voorbeeldmodel selecteert.

  4. Selecteer Volgende in het voorbeeldscherm.

  5. Selecteer voor gegevensbestemming de naam van het lakehouse dat u wilt gebruiken om de OneLake Delta-tabelgegevens op te slaan. U kunt een bestaand lakehouse kiezen of een nieuwe maken.

    Schermopname die laat zien hoe u destination lakehouse selecteert.

  6. Selecteer waar u de uitvoer wilt opslaan. Kies Tabellen als de hoofdmap en voer 'nycsample' in als tabelnaam.

  7. Selecteer in het scherm Controleren en opslaan de optie Gegevensoverdracht direct starten en selecteer vervolgens Opslaan en uitvoeren.

    Schermopname die laat zien hoe u de tabelnaam invoert.

  8. Wanneer de taak is voltooid, gaat u naar uw lakehouse en bekijkt u de deltatabel die wordt vermeld onder de map /Tables.

  9. Klik met de rechtermuisknop op de naam van de gemaakte tabel, selecteer Eigenschappen en kopieer het ABFS-pad (Azure Blob FileSystem).

  10. Open uw Azure Databricks-notebook. Lees de Delta-tabel in OneLake.

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. Werk de Delta-tabelgegevens bij door een veldwaarde te wijzigen.

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;