Gegevens opnemen in OneLake en analyseren met Azure Databricks

Artikel
07/26/2024

In deze handleiding gaat u het volgende doen:

Maak een pijplijn in een werkruimte en opname van gegevens in uw OneLake in Delta-indeling.
Een Delta-tabel lezen en wijzigen in OneLake met Azure Databricks.

Vereisten

Voordat u begint, moet u het volgende hebben:

Een werkruimte met een Lakehouse-item.
Een premium Azure Databricks-werkruimte. Alleen premium Azure Databricks-werkruimten ondersteunen Passthrough voor Microsoft Entra-referenties. Wanneer u uw cluster maakt, schakelt u azure Data Lake Storage-referentiepassthrough in in de geavanceerde opties.
Een voorbeeldgegevensset.

Gegevens opnemen en de Delta-tabel wijzigen

Navigeer naar uw Lakehouse in de Power BI-service en selecteer Gegevens ophalen en selecteer vervolgens Nieuwe gegevenspijplijn.
Voer in de prompt Nieuwe pijplijn een naam in voor de nieuwe pijplijn en selecteer Vervolgens Maken.
Voor deze oefening selecteert u de NYC Taxi - Groene voorbeeldgegevens als de gegevensbron en selecteert u vervolgens Volgende.
Selecteer Volgende in het voorbeeldscherm.
Selecteer voor gegevensbestemming de naam van het lakehouse dat u wilt gebruiken om de OneLake Delta-tabelgegevens op te slaan. U kunt een bestaand lakehouse kiezen of een nieuwe maken.
Selecteer waar u de uitvoer wilt opslaan. Kies Tabellen als de hoofdmap en voer 'nycsample' in als tabelnaam.
Selecteer in het scherm Controleren en opslaan de optie Gegevensoverdracht direct starten en selecteer vervolgens Opslaan en uitvoeren.
Wanneer de taak is voltooid, gaat u naar uw lakehouse en bekijkt u de deltatabel die wordt vermeld onder de map /Tables.
Klik met de rechtermuisknop op de naam van de gemaakte tabel, selecteer Eigenschappen en kopieer het ABFS-pad (Azure Blob FileSystem).

Open uw Azure Databricks-notebook. Lees de Delta-tabel in OneLake.

olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
df.show(5)

Werk de Delta-tabelgegevens bij door een veldwaarde te wijzigen.

%sql
update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;

Gegevens transformeren met Apache Spark en query's uitvoeren met SQL

Delen via

Gegevens opnemen in OneLake en analyseren met Azure Databricks

Vereisten

Gegevens opnemen en de Delta-tabel wijzigen

Feedback

Aanvullende resources

Delen via

Gegevens opnemen in OneLake en analyseren met Azure Databricks

Vereisten

Gegevens opnemen en de Delta-tabel wijzigen

Gerelateerde inhoud

Feedback

Aanvullende resources