Ansluta till molnobjektlagring och -tjänster med Unity Catalog
Den här artikeln ger en översikt över de molnlagringsanslutningar som krävs för att arbeta med data med Unity Catalog, tillsammans med information om hur Unity Catalog styr åtkomsten till molnlagring och externa molntjänster.
Kommentar
Om arbetsytan skapades före den 9 november 2023 kanske den inte är aktiverad för Unity Catalog. En kontoadministratör måste aktivera Unity Catalog för din arbetsyta. Se Aktivera en arbetsyta för Unity Catalog.
Hur använder Unity Catalog molnlagring?
Databricks rekommenderar att du använder Unity Catalog för att hantera åtkomsten till alla data som du har lagrat i molnobjektlagring. Unity Catalog innehåller en uppsättning verktyg för att konfigurera säkra anslutningar till molnobjektlagring. Dessa anslutningar ger åtkomst till följande åtgärder:
- Mata in rådata i ett sjöhus.
- Skapa och läsa hanterade tabeller och hanterade volymer av ostrukturerade data i Unity Catalog-hanterad molnlagring.
- Registrera eller skapa externa tabeller som innehåller tabelldata och externa volymer som innehåller ostrukturerade data i molnlagring som hanteras med hjälp av molnleverantören.
- Läsa och skriva ostrukturerade data (som Unity Catalog-volymer).
För att vara mer specifik använder Unity Catalog molnlagring på två primära sätt:
- Standardlagringsplatser (eller "hanterade") för hanterade tabeller och hanterade volymer (ostrukturerade, icke-tabellbaserade data) som du skapar i Databricks. Dessa hanterade lagringsplatser kan definieras på metaarkiv-, katalog- eller schemanivå. Du skapar hanterade lagringsplatser i molnleverantören, men deras livscykel hanteras helt av Unity Catalog.
- Lagringsplatser där externa tabeller och volymer lagras. Det här är tabeller och volymer vars åtkomst från Azure Databricks hanteras av Unity Catalog, men vars datalivscykel och fillayout hanteras med hjälp av din molnleverantör och andra dataplattformar. Vanligtvis använder du externa tabeller för att registrera stora mängder av dina befintliga data i Azure Databricks, eller om du också behöver skrivåtkomst till data med hjälp av verktyg utanför Azure Databricks.
Mer information om hanterade eller externa tabeller och volymer finns i Vad är tabeller och vyer? och Vad är Unity Catalog-volymer?.
Varning
Ge inte slutanvändarna åtkomst på lagringsnivå till hanterade tabeller eller volymer i Unity Catalog. Detta äventyrar datasäkerhet och styrning.
Att ge användare direkt åtkomst på lagringsnivå till lagring på extern plats i Azure Data Lake Storage Gen2 respekterar inte några behörigheter som beviljats eller granskningar som underhålls av Unity Catalog. Direktåtkomst kringgår granskning, ursprung och andra säkerhets- och övervakningsfunktioner i Unity Catalog, inklusive åtkomstkontroll och behörigheter. Du ansvarar för att hantera direkt lagringsåtkomst via Azure Data Lake Storage Gen2 och se till att användarna har rätt behörigheter som beviljas via Fabric.
Undvik alla scenarier som ger direkt skrivåtkomst på lagringsnivå för bucketar som lagrar Databricks-hanterade tabeller. Om du ändrar, tar bort eller utvecklar objekt direkt via lagring som ursprungligen hanterades av Unity Catalog kan data skadas.
Vilka molnlagringsleverantörer stöds?
Azure Databricks stöder både Azure Data Lake Storage Gen2-containrar och Cloudflare R2-bucketar som molnlagringsplatser för data och AI-tillgångar som registrerats i Unity Catalog. R2 är främst avsett för användningsfall där du vill undvika avgifter för utgående data, till exempel Deltadelning mellan moln och regioner. Mer information finns i Använda Cloudflare R2-repliker eller migrera lagring till R2.
Hur styr Unity Catalog åtkomsten till molnlagring?
För att hantera åtkomsten till den underliggande molnlagringen som innehåller tabeller och volymer använder Unity Catalog ett skyddsbart objekt som kallas extern plats, som definierar en sökväg till en molnlagringsplats och de autentiseringsuppgifter som krävs för att komma åt platsen. Dessa autentiseringsuppgifter definieras i sin tur i ett skyddsbart Objekt i Unity Catalog som kallas för lagringsautentiseringsuppgifter. Genom att bevilja och återkalla åtkomst till externa platssäkringsbara objekt i Unity Catalog styr du åtkomsten till data på molnlagringsplatsen. Genom att bevilja och återkalla åtkomst till skyddsbara lagringsautentiseringsuppgifter i Unity Catalog styr du möjligheten att skapa externa platsobjekt.
Mer information finns i Hantera åtkomst till molnlagring med hjälp av Unity Catalog.
Sökvägsbaserad åtkomst till molnlagring
Unity Catalog stöder sökvägsbaserad åtkomst till externa tabeller och externa volymer med hjälp av URI:er för molnlagring, men Databricks rekommenderar att användarna läser och skriver alla Unity Catalog-tabeller med hjälp av tabellnamn och åtkomst till data i volymer med hjälp av /Volumes
sökvägar.
Volymer är det skyddsbara objekt som de flesta Azure Databricks-användare bör använda för att interagera direkt med icke-tabelldata i molnobjektlagring. Se Vad är Unity Catalog-volymer?.
Metodtips för molnlagring med Unity Catalog
Azure Databricks kräver att du använder Azure Data Lake Storage Gen2 som Azure Storage-tjänst för data som bearbetas i Azure Databricks med hjälp av Styrning av Unity Catalog. Med Azure Data Lake Storage Gen2 kan du separera lagrings- och beräkningskostnader och dra nytta av den detaljerade åtkomstkontroll som tillhandahålls av Unity Catalog. Om data lagras i OneLake (Microsoft Fabric-datasjön) och bearbetas av Databricks (kringgår Unity Catalog) medför du paketerade lagrings- och beräkningskostnader. Detta kan leda till kostnader som är ungefär 3 gånger högre för läsningar och 1,6 gånger högre för skrivningar jämfört med Azure Data Lake Storage Gen2 för lagring, läsning och skrivning av data. Azure Blob Storage är också inte kompatibelt med Unity Catalog.
Hur styr Unity Catalog åtkomsten till andra molntjänster?
Unity Catalog styr åtkomsten till tjänster som inte är lagringstjänster med hjälp av ett skyddsbart objekt som kallas tjänstautentiseringsuppgifter. En tjänstautentiseringsuppgift kapslar in en långsiktig molnautentiseringsuppgift som ger åtkomst till en extern tjänst som användarna behöver ansluta till från Azure Databricks.
Tjänstens autentiseringsuppgifter är inte avsedda att styra åtkomsten till molnlagring som används som en hanterad lagringsplats i Unity Catalog eller extern lagringsplats. I dessa användningsfall använder du en lagringsautentiseringsuppgift enligt beskrivningen i Hur styr Unity Catalog åtkomsten till molnlagring?.
Mer information finns i:
- Hantera åtkomst till externa molntjänster med tjänstautentiseringsuppgifter
- Hantera autentiseringsuppgifter för tjänsten
- Använda autentiseringsuppgifter för Unity Catalog-tjänsten för att ansluta till externa molntjänster
Nästa steg
Om du precis har börjat med Unity Catalog som administratör kan du läsa:
Om du är en ny användare och arbetsytan redan är aktiverad för Unity Catalog kan du läsa:
Mer information om hur du hanterar åtkomst till molnlagring finns i:
Mer information om hur du hanterar åtkomst till molntjänster finns i: