Introduktion till arbetsyteobjekt
Den här artikeln innehåller en introduktion på hög nivå till Azure Databricks-arbetsyteobjekt. Du kan skapa, visa och organisera arbetsyteobjekt i arbetsytans webbläsare mellan olika personer.
Obs! Om namngivning av arbetsytetillgångar
En arbetsytetillgångs fullständiga namn består av dess basnamn och filnamnstillägg. En notebook-fils filnamnstillägg kan till exempel vara .py
, .sql
, .scala
, .r
och .ipynb
beroende på anteckningsbokens språk och format.
När du skapar en notebook-tillgång måste dess basnamn och fullständiga namn (basnamnet som sammanfogats med filnamnstillägget) vara unika i alla arbetsytemappar. När du namnger en tillgång kontrollerar Databricks om den uppfyller det här villkoret genom att lägga till filnamnstillägget i den. Om det fullständiga namnet matchar en befintlig fil i mappen tillåts inte det namnet och du måste välja ett nytt notebook-namn. Om du till exempel försöker skapa en Python-anteckningsbok (i Python-källformat) med namnet test
i samma mapp som en Python-fil med namnet test.py
tillåts den inte.
Kluster
Azure Databricks Datavetenskap & Engineering och Databricks Mosaic AI-kluster ger en enhetlig plattform för olika användningsfall som att köra ETL-pipelines för produktion, strömmande analys, ad hoc-analys och maskininlärning. Ett kluster är en typ av Azure Databricks-beräkningsresurs. Andra typer av beräkningsresurser är Azure Databricks SQL-lager.
Detaljerad information om hur du hanterar och använder kluster finns i Beräkning.
Bärbara datorer
En notebook-fil är ett webbaserat gränssnitt för dokument som innehåller en serie runnable-celler (kommandon) som fungerar på filer och tabeller, visualiseringar och narrativ text. Kommandon kan köras i följd, med hänvisning till utdata från ett eller flera tidigare körningskommandon.
Notebook-filer är en mekanism för att köra kod i Azure Databricks. Den andra mekanismen är jobb.
Detaljerad information om hur du hanterar och använder notebook-filer finns i Introduktion till Databricks-notebook-filer.
Jobb
Jobb är en mekanism för att köra kod i Azure Databricks. Den andra mekanismen är notebook-filer.
Detaljerad information om hur du hanterar och använder jobb finns i Schemalägg och samordna arbetsflöden.
Bibliotek
Ett bibliotek gör kod från tredje part eller lokalt byggd tillgänglig för notebook-filer och jobb som körs i dina kluster.
Detaljerad information om hur du hanterar och använder bibliotek finns i Bibliotek.
Data
Du kan importera data till ett distribuerat filsystem som monterats på en Azure Databricks-arbetsyta och arbeta med dem i Notebook-filer och kluster i Azure Databricks. Du kan också använda en mängd olika Apache Spark-datakällor för att komma åt data.
Detaljerad information om hur du läser in data finns i Mata in data i ett Databricks lakehouse.
filer
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
I Databricks Runtime 11.3 LTS och senare kan du skapa och använda godtyckliga filer på Databricks-arbetsytan. Filer kan vara valfri filtyp. Exempel på vanliga filtyper är:
-
.py
filer som används i anpassade moduler. -
.md
filer, till exempelREADME.md
. -
.csv
eller andra små datafiler. -
.txt
filer. - Loggfiler.
Detaljerad information om hur du använder filer finns i Arbeta med filer på Azure Databricks. Information om hur du använder filer för att modularisera din kod när du utvecklar med Databricks-notebook-filer finns i Dela kod mellan Databricks-notebook-filer
Git-mappar
Git-mappar är Azure Databricks-mappar vars innehåll samversioneras genom att synkronisera dem till en fjärransluten Git-lagringsplats. Med Hjälp av Databricks Git-mappar kan du utveckla notebook-filer i Azure Databricks och använda en fjärransluten Git-lagringsplats för samarbete och versionskontroll.
Detaljerad information om hur du använder lagringsplatser finns i Git-integrering för Databricks Git-mappar.
Modeller
Modell refererar till en modell som är registrerad i MLflow Model Registry. Model Registry är ett centraliserat modellarkiv som gör att du kan hantera hela livscykeln för MLflow-modeller. Den innehåller kronologisk modell härkomst, versionshantering av modeller, fasövergångar samt anteckningar och beskrivningar av modell- och modellversioner.
Detaljerad information om hur du hanterar och använder modeller finns i Hantera modelllivscykel i Unity Catalog.
Experiment
Ett MLflow-experiment är den primära enheten för organisation och åtkomstkontroll för MLflow maskininlärningsmodellträningskörningar. Alla MLflow-körningar tillhör ett experiment. Med varje experiment kan du visualisera, söka efter och jämföra körningar och ladda ned och köra artefakter eller metadata för analys i andra verktyg.
Detaljerad information om hur du hanterar och använder experiment finns i Ordna träningskörningar med MLflow-experiment.
Frågor
Frågor är SQL-instruktioner som gör att du kan interagera med dina data. Mer information finns i Komma åt och hantera sparade frågor.
Instrumentpaneler
Instrumentpaneler är presentationer av frågevisualiseringar och kommentarer. Se Instrumentpaneler eller äldre instrumentpaneler.
Aviseringar
Aviseringar är meddelanden om att ett fält som returneras av en fråga har nått ett tröskelvärde. Mer information finns i Vad är Databricks SQL-aviseringar?.
Referenser till arbetsyteobjekt
Tidigare var användarna skyldiga att inkludera /Workspace
sökvägsprefixet för vissa Databricks-API:er (%sh
) men inte för andra (%run
REST API-indata).
Användare kan använda arbetsytesökvägar med prefixet /Workspace
överallt. Gamla referenser till sökvägar utan /Workspace
prefix omdirigeras och fortsätter att fungera. Vi rekommenderar att alla arbetsytesökvägar har prefixet /Workspace
för att skilja dem från volym- och DBFS-sökvägar.
Förutsättningen för konsekvent /Workspace
beteende för sökvägsprefix är följande: Det kan inte finnas en /Workspace
mapp på arbetsytans rotnivå. Om du har en /Workspace
mapp på rotnivå och vill aktivera den här UX-förbättringen tar du bort eller byter namn på mappen /Workspace
du skapade och kontaktar ditt Azure Databricks-kontoteam.
Dela en fil, mapp eller notebook-URL
I din Azure Databricks-arbetsyta finns URL:er till arbetsytefiler, notebook-filer och mappar i formaten:
URL:er för arbetsytefiler
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
Url:er för notebook-filer
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
Url:er för mapp (arbetsyta och Git)
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
Dessa länkar kan brytas om någon mapp, fil eller notebook-fil i den aktuella sökvägen uppdateras med ett Git-pull-kommando eller tas bort och återskapas med samma namn. Du kan dock skapa en länk baserat på arbetsytans sökväg för att dela med andra Databricks-användare med lämpliga åtkomstnivåer genom att ändra den till en länk i det här formatet:
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
Länkar till mappar, notebook-filer och filer kan delas genom att ersätta allt i URL:en efter ?o=<16-digit-workspace-ID>
med sökvägen till filen, mappen eller notebook-filen från arbetsytans rot. Om du delar en URL till en mapp tar du också bort /browse/folders/<16-digit-ID>
från den ursprungliga URL:en.
Om du vill hämta filsökvägen öppnar du snabbmenyn genom att högerklicka på mappen, anteckningsboken eller filen på arbetsytan som du vill dela och välja Kopiera URL/sökväg>Fullständig sökväg.
#workspace
Förbered till den filsökväg som du precis kopierade och lägg till den resulterande strängen ?o=<16-digit-workspace-ID>
efter så att den matchar URL-formatet ovan.
URL-formuleringsexempel nr 1: Mapp-URL:er
Om du vill dela arbetsytans mapp-URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
tar du bort delsträngen browse/folders/1111111111111111
från URL:en. Lägg till #workspace
följt av sökvägen till mappen eller arbetsyteobjektet som du vill dela.
I det här fallet är arbetsytans sökväg till en mapp, /Workspace/Users/user@example.com/team-git/notebooks
. När du har kopierat den fullständiga sökvägen från arbetsytan kan du nu skapa den delningsbara länken:
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
URL-formuleringsexempel 2: Url:er för notebook-filer
Om du vill dela notebook-URL:en https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
tar du bort #notebook/2222222222222222/command/3333333333333333
. Lägg till #workspace
följt av sökvägen till mappen eller arbetsyteobjektet.
I det här fallet pekar arbetsytans sökväg på en notebook-fil /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
. När du har kopierat den fullständiga sökvägen från arbetsytan kan du nu skapa den delningsbara länken:
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
Nu har du en stabil URL för en fil, mapp eller notebook-sökväg att dela! Mer information om URL:er och identifierare finns i Hämta identifierare för arbetsyteobjekt.