Azure Databricks-begrepp
Den här artikeln beskriver grundläggande begrepp som du behöver förstå för att kunna använda Azure Databricks effektivt.
Konton och arbetsytor
I Azure Databricks är en arbetsyta en Azure Databricks-distribution i molnet som fungerar som en miljö där ditt team kan komma åt Databricks-tillgångar. Din organisation kan välja att antingen ha flera arbetsytor eller bara en, beroende på dess behov.
Ett Azure Databricks-konto representerar en enda entitet som kan innehålla flera arbetsytor. Konton som är aktiverade för Unity Catalog kan användas för att hantera användare och deras åtkomst till data centralt över alla arbetsytor i kontot.
Fakturering: Databricks-enheter (DBUs)
Azure Databricks-fakturor baserat på Databricks-enheter (DBUs), som är enheter för bearbetningskapacitet per timme baserat på vm-instanstyp.
Se prissättningssidan för Azure Databricks.
Autentisering och auktorisering
I det här avsnittet beskrivs begrepp som du behöver veta när du hanterar Azure Databricks-identiteter och deras åtkomst till Azure Databricks-tillgångar.
User
En unik person som har åtkomst till systemet. Användaridentiteter representeras av e-postadresser. Se Hantera användare.
Tjänstens huvudnamn
En tjänstidentitet för användning med jobb, automatiserade verktyg och system som skript, appar och CI/CD-plattformar. Tjänstens huvudnamn representeras av ett program-ID. Läs mer i Hantera tjänstens huvudnamn.
Grupp
En samling identiteter. Grupper förenklar identitetshantering, vilket gör det enklare att tilldela åtkomst till arbetsytor, data och andra skyddsbara objekt. Alla Databricks-identiteter kan tilldelas som medlemmar i grupper. Se Hantera grupper.
Åtkomstkontrollista (ACL)
En lista över behörigheter som är kopplade till arbetsytan, klustret, jobbet, tabellen eller experimentet. En ACL anger vilka användare eller systemprocesser som beviljas åtkomst till objekten, samt vilka åtgärder som tillåts på tillgångarna. Varje post i en typisk ACL anger ett ämne och en åtgärd. Se Åtkomstkontrollistor.
Personlig åtkomsttoken (PAT)
En personlig åtkomsttoken är en sträng som används för att autentisera REST API-anrop, Technology-partner anslutningar och andra verktyg. Mer information finns i autentisering med personlig åtkomsttoken i Azure Databricks.
Microsoft Entra-ID-token kan också användas för att autentisera till REST-API:et.
Azure Databricks-gränssnitt
I det här avsnittet beskrivs gränssnitten för åtkomst till dina tillgångar i Azure Databricks.
UI
Azure Databricks-användargränssnittet är ett grafiskt gränssnitt för att interagera med funktioner, till exempel arbetsytemappar och deras inneslutna objekt, dataobjekt och beräkningsresurser.
REST-API
Databricks REST API tillhandahåller slutpunkter för att ändra eller begära information om Azure Databricks-konto- och arbetsyteobjekt. Se referens för konto och arbetsytereferens.
SQL REST API
Med SQL REST API kan du automatisera uppgifter på SQL-objekt. Se SQL API.
CLI
Databricks CLI finns på GitHub. CLI bygger på Databricks REST API.
Datahantering
I det här avsnittet beskrivs de logiska objekt som lagrar data som du matar in i maskininlärningsalgoritmer och som du utför analys på. Dessutom beskrivs användargränssnittet på plattformen för att utforska och hantera dataobjekt.
Unity-katalog
Unity Catalog är en enhetlig styrningslösning för data- och AI-tillgångar på Azure Databricks som tillhandahåller centraliserad åtkomstkontroll, granskning, ursprung och dataidentifiering i Databricks-arbetsytor. Se Vad är Unity Catalog?.
DBFS-rot
Viktigt!
Lagring och åtkomst till data med DBFS-rot- eller DBFS-monteringar är ett inaktuellt mönster och rekommenderas inte av Databricks. I stället rekommenderar Databricks att du använder Unity Catalog för att hantera åtkomst till alla data. Se Vad är Unity Catalog?.
DBFS-roten är en lagringsplats som är tillgänglig för alla användare som standard. Se Vad är DBFS?.
Katalogutforskaren
Med Catalog Explorer kan du utforska och hantera data och AI-tillgångar, inklusive scheman (databaser), tabeller, modeller, volymer (icke-tabelldata), funktioner och registrerade ML-modeller. Du kan använda den för att hitta dataobjekt och ägare, förstå datarelationer mellan tabeller och hantera behörigheter och delning. Se Vad är Katalogutforskaren?.
Databas
En samling dataobjekt, till exempel tabeller eller vyer och funktioner, som är ordnade så att de enkelt kan nås, hanteras och uppdateras. Se Vad är scheman i Azure Databricks?
Bord
En representation av strukturerade data. Du kör frågor mot tabeller med Apache Spark SQL- och Apache Spark-API:er. Se Vad är tabeller och vyer?.
Deltatabell
Som standard är alla tabeller som skapats i Azure Databricks Delta-tabeller. Deltatabeller baseras på projektet Delta Lake med öppen källkod, ett ramverk för acid-tabelllagring med höga prestanda över molnobjektlager. En Delta-tabell lagrar data som en katalog med filer i molnobjektlagring och registrerar tabellmetadata till metaarkivet i en katalog och ett schema.
Läs mer om tekniker som är märkta som Delta.
Metaarkiv
Komponenten som lagrar all strukturinformation för de olika tabellerna och partitionerna i informationslagret, inklusive information om kolumn- och kolumntyp, serialiserare och deserialiserare som krävs för att läsa och skriva data och motsvarande filer där data lagras. Se metaarkiv
Varje Azure Databricks-distribution har ett centralt Hive-metaarkiv som är tillgängligt för alla kluster för att bevara tabellmetadata. Du kan också använda ett befintligt externt Hive-metaarkiv.
Beräkningshantering
I det här avsnittet beskrivs begrepp som du behöver veta för att köra beräkningar i Azure Databricks.
Kluster
En uppsättning beräkningsresurser och konfigurationer där du kör notebook-filer och jobb. Det finns två typer av kluster: all-purpose och job. Se Beräkning.
- Du skapar ett kluster för alla syften med hjälp av användargränssnittet, CLI eller REST-API:et. Du kan avsluta och starta om ett kluster för alla syften manuellt. Flera användare kan dela klustren för att samarbeta kring interaktiva analyser.
- Azure Databricks-jobbschemaläggaren skapar ett jobbkluster när du kör ett jobb i ett nytt jobbkluster och avslutar klustret när jobbet är klart. Du kan inte starta om ett jobbkluster.
Pool
En uppsättning inaktiva instanser som är redo att användas och som minskar tiden för klusterstart och automatisk skalning. När det är kopplat till en pool allokerar ett kluster sina drivrutins- och arbetsnoder från poolen. Se Referens för poolkonfiguration.
Om poolen inte har tillräckligt med inaktiva resurser för att hantera klustrets begäran expanderar poolen genom att allokera nya instanser från instansprovidern. När ett anslutet kluster avslutas returneras de instanser som det använde till poolen och kan återanvändas av ett annat kluster.
Databricks-körning
Uppsättningen kärnkomponenter som körs på de kluster som hanteras av Azure Databricks. Se Beräkning. Azure Databricks har följande körningar:
- Databricks Runtime innehåller Apache Spark men lägger även till ett antal komponenter och uppdateringar som avsevärt förbättrar användbarhet, prestanda och säkerhet för stordataanalys.
- Databricks Runtime for Machine Learning bygger på Databricks Runtime och tillhandahåller en fördefinierad maskininlärningsinfrastruktur som är integrerad med alla funktioner i Azure Databricks-arbetsytan. Den innehåller flera populära bibliotek, inklusive TensorFlow, Keras, PyTorch och XGBoost.
Arbetsflöden
Användargränssnittet för arbetsflöden innehåller en post till UIs för Jobb och DLT-pipelines, som är verktyg som gör att du kan orkestrera och schemalägga arbetsflöden.
Projekt
En icke-interaktiv mekanism för att orkestrera och schemalägga notebook-filer, bibliotek och andra uppgifter. Se Schemalägg och samordna arbetsflöden
Pipelines
Delta Live Tables-pipelines tillhandahåller ett deklarativt ramverk för att skapa tillförlitliga, underhållsbara och testbara databearbetningspipelines. Se för att få veta Vad är Delta Live Tables?.
Arbetsbelastning
Arbetsbelastning är den mängd bearbetningskapacitet som krävs för att utföra en uppgift eller grupp med uppgifter. Azure Databricks identifierar två typer av arbetsbelastningar: datateknik (jobb) och dataanalys (all-purpose).
- Datateknik En (automatiserad) arbetsbelastning körs på ett jobbkluster som Azure Databricks-jobbschemaläggaren skapar för varje arbetsbelastning.
- Dataanalys En (interaktiv) arbetsbelastning körs på ett kluster för alla syften. Interaktiva arbetsbelastningar kör vanligtvis kommandon i en Azure Databricks-notebook-fil. Men att köra ett jobb på ett befintligt kluster för alla syften behandlas också som en interaktiv arbetsbelastning.
Körningskontext
Tillståndet för en REPL-miljö (read-eval-print loop) för varje programmeringsspråk som stöds. De språk som stöds är Python, R, Scala och SQL.
Datateknik
Datateknikverktyg underlättar samarbete mellan dataforskare, datatekniker, dataanalytiker och maskininlärningstekniker.
Arbetsyta
En arbetsyta är en miljö för åtkomst till alla dina Azure Databricks-tillgångar. En arbetsyta organiserar objekt (notebook-filer, bibliotek, instrumentpaneler och experiment) i mappar och ger åtkomst till dataobjekt och beräkningsresurser.
Notebook-fil
Ett webbaserat gränssnitt för att skapa arbetsflöden för datavetenskap och maskininlärning som kan innehålla runnable-kommandon, visualiseringar och narrativ text. Se Introduktion till Databricks-notebook-filer.
Bibliotek
Ett kodpaket som är tillgängligt för notebook-filen eller jobbet som körs i klustret. Databricks-runtimes innehåller många bibliotek, och du kan också ladda upp dina egna. Se Bibliotek.
Git-mapp (tidigare Repos)
En mapp vars innehåll samversioneras tillsammans genom att synkronisera dem till en fjärransluten Git-lagringsplats. Databricks Git-mappar integreras med Git för att tillhandahålla käll- och versionskontroll för dina projekt.
AI och maskininlärning
Databricks tillhandahåller en integrerad miljö från slutpunkt till slutpunkt med hanterade tjänster för utveckling och distribution av AI- och maskininlärningsprogram.
Mosaik-AI
Varumärket för produkter och tjänster från Databricks Mosaic AI Research, ett team av forskare och ingenjörer som ansvarar för Databricks största genombrott inom generativ AI. Mosaic AI-produkter innehåller ML- och AI-funktionerna i Databricks. Se Mosaikforskning.
Runtime för maskininlärning
För att hjälpa dig att utveckla ML- och AI-modeller tillhandahåller Databricks en Databricks Runtime for Machine Learning, som automatiserar skapandet av beräkning med förbyggd maskininlärning och djupinlärningsinfrastruktur, inklusive de vanligaste ML- och DL-biblioteken. Den har också inbyggt, förkonfigurerat GPU-stöd, inklusive drivrutiner och stödbibliotek. Bläddra till information om de senaste runtime-versionerna från Databricks Runtime versionsanteckningar och kompatibilitet.
Experiment
En samling MLflow-körningar för träning av en maskininlärningsmodell. Se Ordna träningskörningar med MLflow-experiment.
Funktioner
Funktioner är en viktig komponent i ML-modeller. Ett funktionslager möjliggör funktionsdelning och identifiering i hela organisationen och säkerställer även att samma funktionsberäkningskod används för modellträning och slutsatsdragning. Se Funktionsutveckling och servering.
GenAI-modeller
Databricks stöder utforskning, utveckling och distribution av generativa AI-modeller, inklusive:
- AI Playground, en chattliknande miljö på arbetsytan där du kan testa, fråga och jämföra LLM:er. Se Chatta med LLM:er och prototyper av GenAI-appar med AI Playground.
- En inbyggd uppsättning förkonfigurerade grundmodeller som du kan köra frågor mot:
- Se API:er för Foundation-modell för betala per token.
- Se [Rekommenderas] Implementera grundmodeller från Unity Catalog för grundmodeller som du kan tillhandahålla med ett enda klick.
- Värdbaserade LLM:er från tredje part, så kallade externa modeller. Dessa modeller är avsedda att användas som de är.
- Funktioner för att anpassa en grundmodell för att optimera dess prestanda för ditt specifika program (kallas ofta finjustering). Se Finjustering av grundmodell.
Modellregister
Databricks tillhandahåller en värdbaserad version av MLflow Model Registry i Unity Catalog. Modeller som registrerats i Unity Catalog ärver centraliserad åtkomstkontroll, ursprung samt upptäckt och åtkomst mellan arbetsytor. Se Hantera modellens livscykel i Unity Catalog.
Modellservering
Mosaic AI Model Serving tillhandahåller ett enhetligt gränssnitt för att distribuera, styra och fråga AI-modeller. Varje modell som du hanterar är tillgänglig som ett REST-API som du kan integrera i ditt webb- eller klientprogram. Med Mosaic AI Model Serving kan du distribuera dina egna modeller, grundmodeller eller tredjepartsmodeller som finns utanför Databricks. Se Distribuera modeller med hjälp av Mosaic AI Model Serving.
Datalagerhantering
Datalager avser insamling och lagring av data från flera källor så att de snabbt kan nås för affärsinsikter och rapportering. Databricks SQL är en samling tjänster som ger datalagerfunktioner och prestanda till dina befintliga datasjöar. Se Vad är datalagerhantering i Azure Databricks?.
Fråga
En fråga är en giltig SQL-instruktion som gör att du kan interagera med dina data. Du kan skapa frågor med sql-redigeraren på plattformen eller ansluta med hjälp av en SQL-anslutningsapp, drivrutin eller API. Mer information om hur du arbetar med frågor finns i Komma åt och hantera sparade frågor .
SQL-lager
En beräkningsresurs där du kör SQL-frågor. Det finns tre typer av SQL-lager: Klassisk, Pro och Serverlös. Azure Databricks rekommenderar att du använder serverlösa lager där det är tillgängligt. Se SQL-lagertyper för att jämföra tillgängliga funktioner för varje lagertyp.
Frågehistorik
En lista över körda frågor och deras prestandaegenskaper. Med frågehistorik kan du övervaka frågeprestanda, hjälpa dig att identifiera flaskhalsar och optimera frågekörningar. Se Frågehistorik.
Visualisering
En grafisk presentation av resultatet av att köra en fråga. Se Visualiseringar i Databricks-notebook-filer.
Instrumentpanel
En presentation av datavisualiseringar och kommentarer. Du kan använda instrumentpaneler för att automatiskt skicka rapporter till vem som helst i ditt Azure Databricks-konto. Använd Databricks Assistant för att hjälpa dig att skapa visualiseringar baserat på naturliga langauge-frågor. Se Instrumentpaneler. Du kan också skapa en instrumentpanel från en notebook-fil. Se Instrumentpaneler i notebook-filer.
Äldre instrumentpaneler finns i Äldre instrumentpaneler.
Viktigt!
- Databricks rekommenderar att du använder AI/BI-instrumentpaneler (tidigare Lakeview-instrumentpaneler). Tidigare versioner av instrumentpaneler, som tidigare kallades Databricks SQL-instrumentpaneler, kallas nu för äldre instrumentpaneler. Databricks rekommenderar inte att du skapar nya äldre instrumentpaneler.
tidslinje för supportens avslut:
7 april 2025: Det officiella stödet för den äldre versionen av instrumentpaneler upphör. Endast kritiska säkerhetsproblem och avbrott i tjänsten kommer att åtgärdas.
den 3 november 2025: Databricks kommer att börja arkivera äldre instrumentpaneler som inte har använts under de senaste sex månaderna. Arkiverade instrumentpaneler kommer inte längre att vara tillgängliga och arkiveringsprocessen sker löpande. Åtkomsten till aktivt använda instrumentpaneler förblir oförändrad.
Databricks samarbetar med kunder för att utveckla migreringsplaner för aktiva äldre instrumentpaneler efter den 3 november 2025.
Konvertera äldre instrumentpaneler med hjälp av migreringsverktyget eller REST-API:et. Mer information om hur du använder det inbyggda migreringsverktyget finns i Klona en äldre instrumentpanel till en AI/BI-instrumentpanel . Se Självstudier för instrumentpaneler för självstudier om hur du skapar och hanterar instrumentpaneler med hjälp av REST-API:et.