Databasobjekt i Azure Databricks
Azure Databricks använder två primära skyddsbara objekt för att lagra och komma åt data.
- Tabeller styr åtkomsten till tabelldata.
- Volymer styr åtkomsten till icke-tabelldata.
Den här artikeln beskriver hur dessa databasobjekt relaterar till kataloger, scheman, vyer och andra databasobjekt i Azure Databricks. Den här artikeln innehåller också en introduktion på hög nivå till hur databasobjekt fungerar i kontexten för den övergripande plattformsarkitekturen.
Vad är databasobjekt i Azure Databricks?
Databasobjekt är entiteter som hjälper dig att organisera, komma åt och styra data. Azure Databricks använder en hierarki med tre nivåer för att organisera databasobjekt:
- Katalog: Containern på den översta nivån innehåller scheman. Se Vad är kataloger i Azure Databricks?.
- Schema eller databas: Innehåller dataobjekt. Se Vad är scheman i Azure Databricks?.
- Dataobjekt som kan finnas i ett schema:
- Volym: en logisk volym med icke-tabelldata i molnobjektlagring. Se Vad är Unity Catalog-volymer?.
- Tabell: en samling data ordnade efter rader och kolumner. Se Vad är tabeller och vyer?.
- Vy: en sparad fråga mot en eller flera tabeller. Se Vad är en vy?.
- Funktion: sparad logik som returnerar ett skalärt värde eller en uppsättning rader. Se Användardefinierade funktioner (UDF: er) i Unity Catalog.
- Modell: en maskininlärningsmodell som paketeras med MLflow. Se Hantera modelllivscykel i Unity Catalog.
Kataloger registreras i ett metaarkiv som hanteras på kontonivå. Endast administratörer interagerar direkt med metaarkivet. Se Metaarkiv.
Azure Databricks tillhandahåller ytterligare tillgångar för att arbeta med data, som alla kan styras med hjälp av åtkomstkontroller på arbetsytenivå eller Unity Catalog, datastyrningslösningen för Databricks:
- Datatillgångar på arbetsytenivå, till exempel notebook-filer, jobb och frågor.
- Skyddsbara objekt i Unity Catalog, till exempel autentiseringsuppgifter för lagring och deltadelningsresurser, som främst styr åtkomsten till lagring eller säker delning.
Mer information finns i Databasobjekt jämfört med arbetsytesäkrade datatillgångar och autentiseringsuppgifter och infrastruktur som kan skyddas i Unity Catalog.
Hantera åtkomst till databasobjekt med hjälp av Unity Catalog
Du kan bevilja och återkalla åtkomst till databasobjekt på valfri nivå i hierarkin, inklusive själva metaarkivet. Åtkomst till ett objekt ger implicit samma åtkomst till alla underordnade objekt, såvida inte åtkomsten återkallas.
Du kan använda vanliga ANSI SQL-kommandon för att bevilja och återkalla åtkomst till objekt i Unity Catalog. Du kan också använda Catalog Explorer för UI-driven hantering av behörigheter för dataobjekt.
Mer information om hur du skyddar objekt i Unity Catalog finns i Skydda objekt i Unity Catalog.
Standardobjektbehörigheter i Unity Catalog
Beroende på hur din arbetsyta skapades och aktiverades för Unity Catalog kan användarna ha standardbehörigheter för automatiskt etablerade kataloger, inklusive antingen main
katalogen eller arbetsytekatalogen (<workspace-name>
). Mer information finns i Standardbehörigheter för användare.
Om din arbetsyta har aktiverats för Unity Catalog manuellt innehåller den ett standardschema med namnet default
i main
katalogen som är tillgängligt för alla användare på din arbetsyta. Om din arbetsyta har aktiverats för Unity Catalog automatiskt och innehåller en <workspace-name>
katalog innehåller katalogen ett schema med namnet default
som är tillgängligt för alla användare på din arbetsyta.
Databasobjekt jämfört med datatillgångar som kan skyddas av arbetsytan
Med Azure Databricks kan du hantera flera datateknik-, analys-, ML- och AI-tillgångar tillsammans med dina databasobjekt. Du registrerar inte dessa datatillgångar i Unity Catalog. I stället hanteras dessa tillgångar på arbetsytenivå med hjälp av kontrolllistor för att styra behörigheter. Dessa datatillgångar innehåller följande:
- Notebook-filer
- Instrumentpaneler
- Projekt
- Pipelines
- Arbetsytefiler
- SQL-frågor
- Experiment
De flesta datatillgångar innehåller logik som interagerar med databasobjekt för att fråga efter data, använda funktioner, registrera modeller eller andra vanliga uppgifter. Mer information om hur du skyddar arbetsytedatatillgångar finns i Åtkomstkontrollistor.
Kommentar
Åtkomst till beräkning styrs av åtkomstkontrollistor. Du konfigurerar beräkning med ett åtkomstläge och kan lägga till ytterligare molnbehörigheter som styr hur användare kan komma åt data. Databricks rekommenderar att du använder beräkningsprinciper och begränsar behörigheter för att skapa kluster som bästa praxis för datastyrning. Se Åtkomstlägen.
Autentiseringsuppgifter och infrastruktur som kan säkras i Unity Catalog
Unity Catalog hanterar åtkomst till lagring av molnobjekt, datadelning och frågefederation med hjälp av skyddsbara objekt som registrerats på metaarkivnivå. Följande är korta beskrivningar av dessa icke-dataskyddbara objekt.
Ansluta Unity Catalog till molnobjektlagring
Du måste definiera autentiseringsuppgifter för lagring och externa platser för att kunna skapa en ny hanterad lagringsplats eller för att registrera externa tabeller eller externa volymer. Dessa skyddsbara objekt är registrerade i Unity Catalog:
- Lagringsautentiseringsuppgifter: En långsiktig molnautentiseringsuppgift som ger åtkomst till molnlagring.
- Extern plats: En referens till en lagringssökväg för molnobjekt som är tillgänglig med hjälp av den kopplade lagringsautentiseringsuppgiften.
Se Ansluta till molnobjektlagring och -tjänster med hjälp av Unity Catalog.
Deltadelning
Azure Databricks registrerar följande Delta Sharing-skyddsbara objekt i Unity Catalog:
- Dela: En skrivskyddad samling tabeller, volymer och andra datatillgångar.
- Provider: Den organisation eller entitet som delar data. I databricks-till-Databricks-delningsmodellen registreras providern i mottagarens Unity Catalog-metaarkiv som en unik entitet som identifieras av dess metaarkiv-ID.
- Mottagare: Entiteten som tar emot resurser från en provider. I databricks-till-Databricks-delningsmodellen identifieras mottagaren för providern av deras unika metaarkiv-ID.
Lakehouse Federation
Med Lakehouse Federation kan du skapa utländska kataloger för att ge skrivskyddad åtkomst till data som finns i andra system som PostgreSQL, MySQL och Snowflake. Du måste definiera en anslutning till det externa systemet för att kunna skapa externa kataloger.
Anslutning: Ett skyddsbart objekt i Unity Catalog anger en sökväg och autentiseringsuppgifter för åtkomst till ett externt databassystem i ett Lakehouse Federation-scenario.
Se Vad är Lakehouse Federation?.
Hanterade lagringsplatser för hanterade volymer och tabeller
När du skapar tabeller och volymer i Azure Databricks kan du välja att göra dem hanterade eller externa. Unity Catalog hanterar åtkomsten till externa tabeller och volymer från Azure Databricks men styr inte underliggande filer eller hanterar lagringsplatsen för dessa filer fullständigt. Hanterade tabeller och volymer hanteras å andra sidan helt av Unity Catalog och lagras på en hanterad lagringsplats som är associerad med det innehållande schemat. Se Ange en hanterad lagringsplats i Unity Catalog.
Databricks rekommenderar hanterade volymer och hanterade tabeller för de flesta arbetsbelastningar, eftersom de förenklar konfiguration, optimering och styrning.
Unity Catalog jämfört med äldre Hive-metaarkiv
Databricks rekommenderar att du använder Unity Catalog för att registrera och styra alla databasobjekt, men ger även äldre stöd för Hive-metaarkiv för hantering av scheman, tabeller, vyer och funktioner.
Om du interagerar med databasobjekt som registrerats med Hive-metaarkivet läser du Databasobjekt i det äldre Hive-metaarkivet.