Del via


Microsoft Spark Utilities (MSSparkUtils) til Fabric

Microsoft Spark Utilities (MSSparkUtils) er en indbygget pakke, der hjælper dig med nemt at udføre almindelige opgaver. Du kan bruge MSSparkUtils til at arbejde med filsystemer, til at hente miljøvariabler, til at sammenkæde notesbøger og til at arbejde med hemmeligheder. MSSparkUtils-pakken er tilgængelig i PySpark (Python) Scala, SparkR-notesbøger og Fabric-pipelines.

Bemærk

  • MsSparkUtils er officielt omdøbt til NotebookUtils. Den eksisterende kode forbliver bagudkompatibel og medfører ingen afbrydelsesændringer. Det anbefales på det kraftigste at opgradere til notebookutils for at sikre fortsat support og adgang til nye funktioner. Navneområdet mssparkutils udgår i fremtiden.
  • NotebookUtils er udviklet til at fungere sammen med Spark 3.4(Runtime v1.2) og nyere. Alle nye funktioner og opdateringer understøttes udelukkende med navneområdet notebookutils fremover.

Filsystemværktøjer

mssparkutils.fs leverer hjælpeprogrammer til arbejde med forskellige filsystemer, herunder Azure Data Lake Storage (ADLS) Gen2 og Azure Blob Storage. Sørg for at konfigurere adgang til Azure Data Lake Storage Gen2 og Azure Blob Storage korrekt.

Kør følgende kommandoer for at få en oversigt over de tilgængelige metoder:

from notebookutils import mssparkutils
mssparkutils.fs.help()

Output

mssparkutils.fs provides utilities for working with various FileSystems.

Below is overview about the available methods:

cp(from: String, to: String, recurse: Boolean = false): Boolean -> Copies a file or directory, possibly across FileSystems
mv(from: String, to: String, recurse: Boolean = false): Boolean -> Moves a file or directory, possibly across FileSystems
ls(dir: String): Array -> Lists the contents of a directory
mkdirs(dir: String): Boolean -> Creates the given directory if it does not exist, also creating any necessary parent directories
put(file: String, contents: String, overwrite: Boolean = false): Boolean -> Writes the given String out to a file, encoded in UTF-8
head(file: String, maxBytes: int = 1024 * 100): String -> Returns up to the first 'maxBytes' bytes of the given file as a String encoded in UTF-8
append(file: String, content: String, createFileIfNotExists: Boolean): Boolean -> Append the content to a file
rm(dir: String, recurse: Boolean = false): Boolean -> Removes a file or directory
exists(file: String): Boolean -> Check if a file or directory exists
mount(source: String, mountPoint: String, extraConfigs: Map[String, Any]): Boolean -> Mounts the given remote storage directory at the given mount point
unmount(mountPoint: String): Boolean -> Deletes a mount point
mounts(): Array[MountPointInfo] -> Show information about what is mounted
getMountPath(mountPoint: String, scope: String = ""): String -> Gets the local path of the mount point

Use mssparkutils.fs.help("methodName") for more info about a method.

MSSparkUtils fungerer sammen med filsystemet på samme måde som Spark-API'er. Tag brug af mssparkuitls.fs.mkdirs() og Fabric lakehouse for eksempel:

Brug Relativ sti fra HDFS-rod Absolut sti til ABFS-filsystem Absolut sti til lokalt filsystem i drivernoden
Nondefault lakehouse Ikke understøttet mssparkutils.fs.mkdirs("abfss://< container_name>@<storage_account_name.dfs.core.windows.net/>< new_dir>") mssparkutils.fs.mkdirs("file:/<new_dir>")
Standard lakehouse Mappe under "Filer" eller "Tabeller": mssparkutils.fs.mkdirs("Filer/<new_dir>") mssparkutils.fs.mkdirs("abfss://< container_name>@<storage_account_name.dfs.core.windows.net/>< new_dir>") mssparkutils.fs.mkdirs("file:/<new_dir>")

Vis filer

Hvis du vil have vist indholdet af en mappe, skal du bruge mssparkutils.fs.ls('Din mappesti'). Eksempler:

mssparkutils.fs.ls("Files/tmp") # works with the default lakehouse files using relative path 
mssparkutils.fs.ls("abfss://<container_name>@<storage_account_name>.dfs.core.windows.net/<path>")  # based on ABFS file system 
mssparkutils.fs.ls("file:/tmp")  # based on local file system of driver node 

Vis filegenskaber

Denne metode returnerer filegenskaber, herunder filnavn, filsti, filstørrelse, og om det er en mappe og en fil.

files = mssparkutils.fs.ls('Your directory path')
for file in files:
    print(file.name, file.isDir, file.isFile, file.path, file.size)

Opret en ny mappe

Denne metode opretter den angivne mappe, hvis den ikke findes, og opretter eventuelle nødvendige overordnede mapper.

mssparkutils.fs.mkdirs('new directory name')  
mssparkutils.fs. mkdirs("Files/<new_dir>")  # works with the default lakehouse files using relative path 
mssparkutils.fs.ls("abfss://<container_name>@<storage_account_name>.dfs.core.windows.net/<new_dir>")  # based on ABFS file system 
mssparkutils.fs.ls("file:/<new_dir>")  # based on local file system of driver node 

Kopiér fil

Denne metode kopierer en fil eller mappe og understøtter kopieringsaktivitet på tværs af filsystemer.

mssparkutils.fs.cp('source file or directory', 'destination file or directory', True)# Set the third parameter as True to copy all files and directories recursively

Kopifil med effektiv udførelse

Denne metode giver en hurtigere måde at kopiere eller flytte filer på, især store datamængder.

mssparkutils.fs.fastcp('source file or directory', 'destination file or directory', True)# Set the third parameter as True to copy all files and directories recursively

Vis filindhold

Denne metode returnerer op til de første 'maxBytes' byte i den angivne fil som en streng, der er kodet i UTF-8.

mssparkutils.fs.head('file path', maxBytes to read)

Flyt fil

Denne metode flytter en fil eller mappe og understøtter flytninger på tværs af filsystemer.

mssparkutils.fs.mv('source file or directory', 'destination directory', True) # Set the last parameter as True to firstly create the parent directory if it does not exist
mssparkutils.fs.mv('source file or directory', 'destination directory', True, True) # Set the third parameter to True to firstly create the parent directory if it does not exist. Set the last parameter to True to overwrite the updates.

Skriv fil

Denne metode skriver den angivne streng ud til en fil, der er kodet i UTF-8.

mssparkutils.fs.put("file path", "content to write", True) # Set the last parameter as True to overwrite the file if it existed already

Føj indhold til en fil

Denne metode føjer den angivne streng til en fil, der er kodet i UTF-8.

mssparkutils.fs.append("file path", "content to append", True) # Set the last parameter as True to create the file if it does not exist

Bemærk

Når du bruger API'en mssparkutils.fs.append i en for løkke til at skrive til den samme fil, anbefaler vi, at du tilføjer en sleep sætning omkring 0,5s~1s mellem de tilbagevendende skrivninger. Det skyldes, at mssparkutils.fs.append API'ens interne flush handling er asynkron, så en kort forsinkelse hjælper med at sikre dataintegritet.

Slet fil eller mappe

Denne metode fjerner en fil eller mappe.

mssparkutils.fs.rm('file path', True) # Set the last parameter as True to remove all files and directories recursively

Tilslut/ophæv tilslutning af mappe

Du kan finde flere oplysninger om detaljeret brug i Filtilslut og fjern forbindelse.

Hjælpeprogrammer til notesbøger

Brug mssparkUtils Notebook Utilities til at køre en notesbog eller afslutte en notesbog med en værdi. Kør følgende kommando for at få en oversigt over de tilgængelige metoder:

mssparkutils.notebook.help()

Udgang:


exit(value: String): void -> This method lets you exit a notebook with a value.
run(path: String, timeoutSeconds: int, arguments: Map): String -> This method runs a notebook and returns its exit value.

Bemærk

Hjælpeprogrammer til notesbøger er ikke relevante for Apache Spark-jobdefinitioner (SJD).

Reference til en notesbog

Denne metode refererer til en notesbog og returnerer dens afslutningsværdi. Du kan køre indlejrede funktionskald i en notesbog interaktivt eller i en pipeline. Den notesbog, der refereres til, kører på Spark-gruppen for den notesbog, der kalder denne funktion.

mssparkutils.notebook.run("notebook name", <timeoutSeconds>, <parameterMap>, <workspaceId>)

Eksempler:

mssparkutils.notebook.run("Sample1", 90, {"input": 20 })

Stofnotesbog understøtter også henvisninger til notesbøger på tværs af flere arbejdsområder ved at angive arbejdsområde-id'et.

mssparkutils.notebook.run("Sample1", 90, {"input": 20 }, "fe0a6e2a-a909-4aa3-a698-0a651de790aa")

Du kan åbne snapshotlinket for referencekørslen i celleoutputtet. Snapshottet henter resultaterne af kodekørsel og giver dig mulighed for nemt at foretage fejlfinding af en referencekørsel.

Skærmbillede, der viser kørselsresultatet for referencen.

Skærmbillede af et snapshot med resultater for kodekørsel.

Bemærk

  • Referencenotesbogen på tværs af arbejdsområder understøttes af runtime version 1.2 og nyere.
  • Hvis du bruger filerne under Notesbogressource, skal du bruge mssparkutils.nbResPath i den notesbog, der refereres til, for at sikre, at den peger på den samme mappe som den interaktive kørsel.

Referencen kører flere notesbøger parallelt

Vigtigt

Denne funktion er en prøveversion.

mssparkutils.notebook.runMultiple() Metoden giver dig mulighed for at køre flere notesbøger parallelt eller med en foruddefineret topologisk struktur. API'en bruger en multitrådsimplementeringsmekanisme i en spark-session, hvilket betyder, at beregningsressourcerne deles af referencenotesbogen kører.

Med mssparkutils.notebook.runMultiple()kan du:

  • Udfør flere notesbøger samtidigt uden at vente på, at hver enkelt afsluttes.

  • Angiv afhængighederne og rækkefølgen af udførelsen af dine notesbøger ved hjælp af et simpelt JSON-format.

  • Optimer brugen af Spark-beregningsressourcer, og reducer omkostningerne ved dine Fabric-projekter.

  • Få vist snapshots af hver notesbogs kørselspost i outputtet, og foretag en nem fejlfinding/overvågning af dine opgaver i notesbogen.

  • Hent afslutningsværdien for hver lederaktivitet, og brug dem i downstream-opgaver.

Du kan også prøve at køre mssparkutils.notebook.help("runMultiple") for at finde eksemplet og detaljeret brug.

Her er et simpelt eksempel på kørsel af en liste over notesbøger parallelt ved hjælp af denne metode:


mssparkutils.notebook.runMultiple(["NotebookSimple", "NotebookSimple2"])

Udførelsesresultatet fra rodnotesbogen er som følger:

Skærmbillede af reference til en liste over notesbøger.

Følgende er et eksempel på kørsel af notesbøger med topologisk struktur ved hjælp af mssparkutils.notebook.runMultiple(). Brug denne metode til nemt at orkestrere notesbøger via en kodeoplevelse.

# run multiple notebooks with parameters
DAG = {
    "activities": [
        {
            "name": "NotebookSimple", # activity name, must be unique
            "path": "NotebookSimple", # notebook path
            "timeoutPerCellInSeconds": 90, # max timeout for each cell, default to 90 seconds
            "args": {"p1": "changed value", "p2": 100}, # notebook parameters
        },
        {
            "name": "NotebookSimple2",
            "path": "NotebookSimple2",
            "timeoutPerCellInSeconds": 120,
            "args": {"p1": "changed value 2", "p2": 200}
        },
        {
            "name": "NotebookSimple2.2",
            "path": "NotebookSimple2",
            "timeoutPerCellInSeconds": 120,
            "args": {"p1": "changed value 3", "p2": 300},
            "retry": 1,
            "retryIntervalInSeconds": 10,
            "dependencies": ["NotebookSimple"] # list of activity names that this activity depends on
        }
    ],
    "timeoutInSeconds": 43200, # max timeout for the entire DAG, default to 12 hours
    "concurrency": 50 # max number of notebooks to run concurrently, default to 50
}
mssparkutils.notebook.runMultiple(DAG, {"displayDAGViaGraphviz": False})

Udførelsesresultatet fra rodnotesbogen er som følger:

Skærmbillede af reference til en liste over notesbøger med parametre.

Bemærk

  • Parallelitetsgraden for kørsel af flere notesbøger er begrænset til den samlede tilgængelige beregningsressource for en Spark-session.
  • Den øvre grænse for notesbogaktiviteter eller samtidige notesbøger er 50. Overskridelse af denne grænse kan medføre problemer med stabilitet og ydeevne på grund af et højt forbrug af beregningsressourcer. Hvis der opstår problemer, kan du overveje at adskille notesbøger i flere runMultiple kald eller reducere samtidigheden ved at justere feltet samtidighed i DAG-parameteren.
  • Standardtimeout for hele DAG er 12 timer, og standardtimeouten for hver celle i den underordnede notesbog er 90 sekunder. Du kan ændre timeout ved at angive felterne timeoutInSeconds og timeoutPerCellInSeconds i DAG-parameteren.

Afslut en notesbog

Denne metode afslutter en notesbog med en værdi. Du kan køre indlejrede funktionskald i en notesbog interaktivt eller i en pipeline.

  • Når du kalder en exit() -funktion fra en notesbog interaktivt, udløser Fabric-notesbogen en undtagelse, springer efterfølgende celler over og holder Spark-sessionen i live.

  • Når du orkestrer en notesbog i en pipeline, der kalder en exit() -funktion, returnerer notesbogaktiviteten med en afslutningsværdi, fuldfører pipelinekørslen og stopper Spark-sessionen.

  • Når du kalder en exit()-funktion i en notesbog, der refereres til, stopper Fabric Spark den yderligere udførelse af den notesbog, der refereres til, og fortsætter med at køre de næste celler i hovednotesbogen, der kalder funktionen run(). Eksempel: Notebook1 har tre celler og kalder en exit() -funktion i den anden celle. Notebook2 har fem celler og kald run(notebook1) i den tredje celle. Når du kører Notesbog2, stopper Notebook1 ved den anden celle, når du rammer exit () -funktionen. Notebook2 fortsætter med at køre den fjerde celle og femte celle.

mssparkutils.notebook.exit("value string")

Eksempler:

Eksempel1-notesbog med følgende to celler:

  • Celle 1 definerer en inputparameter , hvor standardværdien er angivet til 10.

  • Celle 2 afslutter notesbogen med input som afslutningsværdi.

Skærmbillede, der viser en eksempelnotesbog med afslutningsfunktionen.

Du kan køre Sample1 i en anden notesbog med standardværdier:

exitVal = mssparkutils.notebook.run("Sample1")
print (exitVal)

Udgang:

Notebook executed successfully with exit value 10

Du kan køre Sample1 i en anden notesbog og angive inputværdien som 20:

exitVal = mssparkutils.notebook.run("Sample1", 90, {"input": 20 })
print (exitVal)

Udgang:

Notebook executed successfully with exit value 20

Hjælpeprogrammer til legitimationsoplysninger

Du kan bruge hjælpeprogrammerne til legitimationsoplysninger til MSSparkUtils til at få adgangstokens og administrere hemmeligheder i en Azure Key Vault.

Kør følgende kommando for at få en oversigt over de tilgængelige metoder:

mssparkutils.credentials.help()

Udgang:

getToken(audience, name): returns AAD token for a given audience, name (optional)
getSecret(keyvault_endpoint, secret_name): returns secret for a given Key Vault and secret name

Hent token

getToken returnerer et Microsoft Entra-token for en given målgruppe og et givet navn (valgfrit). På følgende liste vises de målgruppenøgler, der er tilgængelige i øjeblikket:

  • Ressource for lagermålgruppe: "lager"
  • Power BI-ressource: "pbi"
  • Azure Key Vault-ressource: "keyvault"
  • Synapse RTA KQL DB-ressource: "kusto"

Kør følgende kommando for at hente tokenet:

mssparkutils.credentials.getToken('audience Key')

Hent hemmelighed ved hjælp af brugerlegitimationsoplysninger

getSecret returnerer en Azure Key Vault-hemmelighed for et givet Azure Key Vault-slutpunkt og et hemmeligt navn ved hjælp af brugerlegitimationsoplysninger.

mssparkutils.credentials.getSecret('https://<name>.vault.azure.net/', 'secret name')

Filtilslut og fjern forbindelse

Fabric understøtter følgende monteringsscenarier i Pakken Microsoft Spark Utilities. Du kan bruge API'erne til tilslutning, afmontering, getMountPath() og mounts() til at knytte ADLS Gen2 (Remote Storage) til alle arbejdsnoder (drivernoder og arbejdsnoder). Når lagertilslutpunktet er på plads, skal du bruge API'en for den lokale fil til at få adgang til data, som om de er gemt i det lokale filsystem.

Sådan monterer du en ADLS Gen2-konto

I følgende eksempel illustreres det, hvordan du monterer Azure Data Lake Storage Gen2. Montering af Blob Storage fungerer på samme måde.

I dette eksempel antages det, at du har én Data Lake Storage Gen2-konto med navnet storegen2, og at kontoen har én objektbeholder med navnet mycontainer , som du vil indsætte i /teste i din Spark-notesbogsession.

Skærmbillede, der viser, hvor du kan vælge en objektbeholder, der skal monteres.

Hvis du vil montere objektbeholderen med navnet mycontainer, skal mssparkutils først kontrollere, om du har tilladelse til at få adgang til objektbeholderen. Fabric understøtter i øjeblikket to godkendelsesmetoder for udløsertilsluttelseshandlingen: accountKey og sastoken.

Opret forbindelse via et signaturtoken eller en kontonøgle med delt adgang

MSSparkUtils understøtter eksplicit overførsel af en kontonøgle eller SAS-token (Shared Access Signature) som en parameter for at montere destinationen.

Af sikkerhedsmæssige årsager anbefaler vi, at du gemmer kontonøgler eller SAS-tokens i Azure Key Vault (som vist på følgende skærmbillede). Du kan derefter hente dem ved hjælp af API'en mssparkutils.credentials.getSecret . Du kan få flere oplysninger om Azure Key Vault under Om administrerede lagerkontonøgler i Azure Key Vault.

Skærmbillede, der viser, hvor hemmeligheder gemmes i en Azure Key Vault.

Eksempelkode for metoden accountKey :

from notebookutils import mssparkutils  
# get access token for keyvault resource
# you can also use full audience here like https://vault.azure.net
accountKey = mssparkutils.credentials.getSecret("<vaultURI>", "<secretName>")
mssparkutils.fs.mount(  
    "abfss://mycontainer@<accountname>.dfs.core.windows.net",  
    "/test",  
    {"accountKey":accountKey}
)

Eksempelkode for sastoken:

from notebookutils import mssparkutils  
# get access token for keyvault resource
# you can also use full audience here like https://vault.azure.net
sasToken = mssparkutils.credentials.getSecret("<vaultURI>", "<secretName>")
mssparkutils.fs.mount(  
    "abfss://mycontainer@<accountname>.dfs.core.windows.net",  
    "/test",  
    {"sasToken":sasToken}
)

Bemærk

Du skal muligvis importere mssparkutils , hvis den ikke er tilgængelig:

from notebookutils import mssparkutils

Tilslutningsparametre:

  • fileCacheTimeout: Blobs cachelagres som standard i den lokale midlertidige mappe i 120 sekunder. I denne periode kontrollerer blobfuse ikke, om filen er opdateret eller ej. Parameteren kan indstilles til at ændre standardtimeouttiden. Når flere klienter ændrer filer på samme tid for at undgå uoverensstemmelser mellem lokale og eksterne filer, anbefaler vi, at du forkorter cachetiden eller endda ændrer den til 0 og altid henter de nyeste filer fra serveren.
  • timeout: Timeout for tilslutningshandlingen er som standard 120 sekunder. Parameteren kan indstilles til at ændre standardtimeouttiden. Når der er for mange eksekveringsforetagender, eller når der opstår timeout for tilslutning, anbefaler vi, at værdien øges.

Du kan bruge disse parametre på følgende måde:

mssparkutils.fs.mount(
   "abfss://mycontainer@<accountname>.dfs.core.windows.net",
   "/test",
   {"fileCacheTimeout": 120, "timeout": 120}
)

Bemærk

Af sikkerhedsmæssige årsager anbefaler vi, at du ikke gemmer legitimationsoplysninger i kode. Hvis du vil beskytte dine legitimationsoplysninger yderligere, redigerer vi din hemmelighed i notesbogoutputtet. Du kan få mere at vide under Hemmelig redigering.

Sådan monterer du et lakehouse

Eksempelkode til montering af et lakehouse i /test:

from notebookutils import mssparkutils 
mssparkutils.fs.mount( 
 "abfss://<workspace_id>@onelake.dfs.fabric.microsoft.com/<lakehouse_id>", 
 "/test"
)

Bemærk

Det understøttes ikke at oprette et regionalt slutpunkt. Fabric understøtter kun montering af det globale slutpunkt, onelake.dfs.fabric.microsoft.com.

Få adgang til filer under tilslutningspunktet ved hjælp af API'en mssparktuils fs

Det primære formål med tilslutningshandlingen er at give kunderne adgang til de data, der er gemt på en fjernlagerkonto, med en API til et lokalt filsystem. Du kan også få adgang til dataene ved hjælp af API'en mssparkutils fs med en tilsluttet sti som en parameter. Dette stiformat er lidt anderledes.

Antag, at du har tilsluttet Data Lake Storage Gen2-objektbeholderen mycontainer til /test ved hjælp af mount-API'en. Når du får adgang til dataene med en API til et lokalt filsystem, er stiformatet som følger:

/synfs/notebook/{sessionId}/test/{filename}

Når du vil have adgang til dataene ved hjælp af mssparkutils fs API, anbefaler vi, at du bruger getMountPath() til at få den nøjagtige sti:

path = mssparkutils.fs.getMountPath("/test")
  • Listemapper:

    mssparkutils.fs.ls(f"file://{mssparkutils.fs.getMountPath('/test')}")
    
  • Læs filindhold:

    mssparkutils.fs.head(f"file://{mssparkutils.fs.getMountPath('/test')}/myFile.txt")
    
  • Opret en mappe:

    mssparkutils.fs.mkdirs(f"file://{mssparkutils.fs.getMountPath('/test')}/newdir")
    

Få adgang til filer under tilslutningspunktet via lokal sti

Du kan nemt læse og skrive filerne på tilslutningspunktet ved hjælp af standardfilsystemet. Her er et Python-eksempel:

#File read
with open(mssparkutils.fs.getMountPath('/test2') + "/myFile.txt", "r") as f:
    print(f.read())
#File write
with open(mssparkutils.fs.getMountPath('/test2') + "/myFile.txt", "w") as f:
    print(f.write("dummy data"))

Sådan kontrollerer du eksisterende tilslutningspunkter

Du kan bruge api'en mssparkutils.fs.mounts() til at kontrollere alle eksisterende oplysninger om tilslutningspunkt:

mssparkutils.fs.mounts()

Sådan frakobles tilslutningspunktet

Brug følgende kode til at fjerne tilslutningspunktet (/test i dette eksempel):

mssparkutils.fs.unmount("/test")

Kendte begrænsninger

  • Den aktuelle tilslutning er en konfiguration på jobniveau. Vi anbefaler, at du bruger mounts-API'en til at kontrollere, om der findes et tilslutningspunkt, eller om det ikke er tilgængeligt.

  • Unmount-mekanismen er ikke automatisk. Når kørslen af programmet er fuldført, skal du eksplicit kalde en UNmount API i din kode for at fjerne tilslutningspunktet og frigøre diskplads. Ellers findes tilslutningspunktet stadig i noden, når programkørslen er fuldført.

  • Det understøttes ikke at oprette en ADLS Gen1-lagerkonto.

Lakehouse-hjælpeprogrammer

mssparkutils.lakehouse indeholder hjælpeprogrammer, der er skræddersyet til administration af Lakehouse-artefakter. Disse hjælpeprogrammer giver brugerne mulighed for nemt at oprette, hente, opdatere og slette Lakehouse-artefakter.

Bemærk

Lakehouse-API'er understøttes kun på Runtime version 1.2+.

Oversigt over metoder

Nedenfor finder du en oversigt over de tilgængelige metoder, der leveres af mssparkutils.lakehouse:

# Create a new Lakehouse artifact
create(name: String, description: String = "", workspaceId: String = ""): Artifact

# Retrieve a Lakehouse artifact
get(name: String, workspaceId: String = ""): Artifact

# Update an existing Lakehouse artifact
update(name: String, newName: String, description: String = "", workspaceId: String = ""): Artifact

# Delete a Lakehouse artifact
delete(name: String, workspaceId: String = ""): Boolean

# List all Lakehouse artifacts
list(workspaceId: String = ""): Array[Artifact]

Eksempler på anvendelse

Hvis du vil bruge disse metoder effektivt, skal du overveje følgende anvendelseseksempler:

Oprettelse af en Lakehouse-artefakt

artifact = mssparkutils.lakehouse.create("artifact_name", "Description of the artifact", "optional_workspace_id")

Henter en Lakehouse-artefakt

artifact = mssparkutils.lakehouse.get("artifact_name", "optional_workspace_id")

Opdaterer en Lakehouse-artefakt

updated_artifact = mssparkutils.lakehouse.update("old_name", "new_name", "Updated description", "optional_workspace_id")

Sletning af en Lakehouse-artefakt

is_deleted = mssparkutils.lakehouse.delete("artifact_name", "optional_workspace_id")

Liste over Lakehouse-artefakter

artifacts_list = mssparkutils.lakehouse.list("optional_workspace_id")

Flere oplysninger

Du kan finde flere detaljerede oplysninger om hver metode og dens parametre ved at bruge funktionen mssparkutils.lakehouse.help("methodName") .

Med MSSparkUtils' Lakehouse-hjælpeprogrammer bliver administrationen af dine Lakehouse-artefakter mere effektiv og integreret i dine Fabric-pipelines, hvilket forbedrer din overordnede dataadministrationsoplevelse.

Du er velkommen til at udforske disse hjælpeprogrammer og inkorporere dem i dine Fabric-arbejdsprocesser for problemfri administration af Lakehouse-artefakter.

Runtime-hjælpeprogrammer

Vis oplysninger om sessionskontekst

Med mssparkutils.runtime.context kan du hente kontekstoplysningerne for den aktuelle livesession, herunder notesbogens navn, standard lakehouse, arbejdsområdeoplysninger, hvis det er en pipelinekørsel osv.

mssparkutils.runtime.context

Bemærk

mssparkutils.env ikke officielt understøttes på Fabric, skal du bruge notebookutils.runtime.context som alternativ.

Kendt problem

Når du bruger runtime-versionen over 1.2 og kører mssparkutils.help(), understøttes de angivne fabricClient-, warehouse- og arbejdsområde-API'er ikke i øjeblikket.