Del via


Integrere OneLake med Azure HDInsight

Azure HDInsight er en administrert skybasert tjeneste for analyse av store data som hjelper organisasjoner med å behandle data med store mengder. Denne opplæringen viser hvordan du kobler til OneLake med en Jupyter-notatblokk fra en Azure HDInsight-klynge.

Bruke Azure HDInsight

Slik kobler du til OneLake med en Jupyter-notatblokk fra en HDInsight-klynge:

  1. Opprett en HDInsight (HDI) Apache Spark-klynge. Følg disse instruksjonene: Konfigurere klynger i HDInsight.

    1. Når du oppgir klyngeinformasjon, må du huske brukernavnet og passordet for klyngen, siden du trenger dem for å få tilgang til klyngen senere.

    2. Opprett en brukertilordnet administrert identitet (UAMI): Opprett for Azure HDInsight – UAMI, og velg den som identitet på lagringsskjermen.

      Skjermbilde som viser hvor du skriver inn den brukertilordnede administrerte identiteten på lagringsskjermen.

  2. Gi denne UAMI-tilgangen til Fabric-arbeidsområdet som inneholder elementene dine. Hvis du vil ha hjelp til å bestemme hvilken rolle som er best, kan du se Arbeidsområderoller.

    Skjermbilde som viser hvordan du åpner behandle tilgangspanelet.

  3. Gå til lakehouse og finn navnet på arbeidsområdet og lakehouse. Du finner dem i nettadressen til lakehouse eller Egenskaper-ruten for en fil.

  4. Se etter klyngen i Azure-portalen, og velg notatblokken.

    Skjermbilde som viser hvor du finner klyngen og notatblokken i Azure-portalen.

  5. Angi legitimasjonsinformasjonen du oppgav under oppretting av klyngen.

    Skjermbilde som viser hvor du skriver inn legitimasjonsinformasjonen.

  6. Opprett en ny Apache Spark-notatblokk.

  7. Kopier arbeidsområde- og lakehouse-navnene til notatblokken, og bygg OneLake-nettadressen for lakehouse. Nå kan du lese en fil fra denne filbanen.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Prøv å skrive noen data inn i lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Test at dataene ble skrevet ved å sjekke lakehouse eller ved å lese den nylig lastede filen.

Nå kan du lese og skrive data i OneLake ved hjelp av Jupyter-notatblokken i en HDI Spark-klynge.