Delen via


OneLake integreren met Azure Synapse Analytics

Azure Synapse is een service voor oneindige analyses die datawarehousing op ondernemingsniveau en analyse van big data samenbrengt. Deze zelfstudie laat zien hoe u verbinding maakt met OneLake met behulp van Azure Synapse Analytics.

Gegevens schrijven vanuit Synapse met behulp van Apache Spark

Volg deze stappen om Apache Spark te gebruiken om voorbeeldgegevens naar OneLake te schrijven vanuit Azure Synapse Analytics.

  1. Open uw Synapse-werkruimte en maak een Apache Spark-pool met uw voorkeursparameters.

    Screenshot showing where to select New in the Apache Spark pool screen.

  2. Maak een nieuw Apache Spark-notebook.

  3. Open het notebook, stel de taal in op PySpark (Python) en verbind deze met uw zojuist gemaakte Spark-pool.

  4. Ga op een afzonderlijk tabblad naar uw Microsoft Fabric Lakehouse en zoek de map Tabellen op het hoogste niveau.

  5. Klik met de rechtermuisknop op de map Tabellen en selecteer Eigenschappen.

    Screenshot showing where to open the Properties pane lakehouse explorer.

  6. Kopieer het ABFS-pad vanuit het deelvenster Eigenschappen.

    Screenshot showing where to copy the ABFS path.

  7. Geef in de eerste nieuwe codecel in het Azure Synapse-notebook het lakehouse-pad op. In dit lakehouse worden uw gegevens later geschreven. Voer de cel uit.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. Laad in een nieuwe codecel gegevens uit een open Azure-gegevensset in een dataframe. Deze gegevensset is de gegevensset die u in uw lakehouse laadt. Voer de cel uit.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. In een nieuwe codecel kunt u uw gegevens filteren, transformeren of voorbereiden. Voor dit scenario kunt u uw gegevensset verkleinen voor sneller laden, samenvoegen met andere gegevenssets of filteren op specifieke resultaten. Voer de cel uit.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. Schrijf in een nieuwe codecel met behulp van uw OneLake-pad uw gefilterde gegevensframe naar een nieuwe Delta-Parquet-tabel in uw Fabric Lakehouse. Voer de cel uit.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Test ten slotte in een nieuwe codecel of uw gegevens zijn geschreven door het zojuist geladen bestand van OneLake te lezen. Voer de cel uit.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Gefeliciteerd. U kunt nu gegevens lezen en schrijven in OneLake met behulp van Apache Spark in Azure Synapse Analytics.

Gegevens lezen uit Synapse met behulp van SQL

Volg deze stappen om serverloze SQL te gebruiken om gegevens uit OneLake te lezen vanuit Azure Synapse Analytics.

  1. Open een Fabric Lakehouse en identificeer een tabel die u wilt opvragen vanuit Synapse.

  2. Klik met de rechtermuisknop op de tabel en selecteer Eigenschappen.

  3. Kopieer het ABFS-pad voor de tabel.

    Screenshot showing where to copy the ABFS path.

  4. Open uw Synapse-werkruimte in Synapse Studio.

  5. Maak een nieuw SQL-script.

  6. Voer in de SQL-queryeditor de volgende query in, waarbij u het pad vervangt ABFS_PATH_HERE dat u eerder hebt gekopieerd.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Voer de query uit om de tien bovenste rijen van de tabel weer te geven.

Gefeliciteerd. U kunt nu gegevens uit OneLake lezen met behulp van SQL serverloos in Azure Synapse Analytics.