Delen via


OneLake integreren met Azure HDInsight

Azure HDInsight is een beheerde cloudservice voor big data-analyses waarmee organisaties grote hoeveelheden gegevens kunnen verwerken. Deze zelfstudie laat zien hoe u vanuit een Azure HDInsight-cluster verbinding maakt met OneLake met een Jupyter-notebook.

Azure HDInsight gebruiken

Verbinding maken met OneLake met een Jupyter-notebook vanuit een HDInsight-cluster:

  1. Maak een HDInsight-cluster (HDI) voor Apache Spark. Volg deze instructies: clusters instellen in HDInsight.

    1. Onthoud tijdens het opgeven van clustergegevens uw gebruikersnaam en wachtwoord voor clusteraanmelding, omdat u ze later nodig hebt om toegang te krijgen tot het cluster.

    2. Maak een door de gebruiker toegewezen beheerde identiteit (UAMI): Maak voor Azure HDInsight - UAMI en kies deze als de identiteit in het opslagscherm .

      Schermopname die laat zien waar de door de gebruiker toegewezen beheerde identiteit moet worden ingevoerd in het opslagscherm.

  2. Geef deze UAMI toegang tot de Fabric-werkruimte die uw items bevat. Zie Werkruimterollen voor hulp bij het bepalen welke rol het beste is.

    Schermopname die laat zien waar een item moet worden geselecteerd in het deelvenster Toegang beheren.

  3. Navigeer naar uw lakehouse en zoek de naam voor uw werkruimte en lakehouse. U vindt deze in de URL van uw lakehouse of in het deelvenster Eigenschappen voor een bestand.

  4. Zoek in Azure Portal naar uw cluster en selecteer het notebook.

    Schermopname die laat zien waar u uw cluster en notebook kunt vinden in Azure Portal.

  5. Voer de referentiegegevens in die u hebt opgegeven tijdens het maken van het cluster.

    Schermopname die laat zien waar u uw referentiegegevens kunt invoeren.

  6. Maak een nieuw Apache Spark-notebook.

  7. Kopieer de namen van de werkruimte en lakehouse naar uw notebook en bouw de OneLake-URL voor uw lakehouse. U kunt nu elk bestand lezen vanuit dit bestandspad.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Probeer wat gegevens naar het lakehouse te schrijven.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Test of uw gegevens zijn geschreven door uw lakehouse te controleren of door het zojuist geladen bestand te lezen.

U kunt nu gegevens lezen en schrijven in OneLake met behulp van uw Jupyter-notebook in een HDI Spark-cluster.