Dela via


Översikt över Azure Databricks-konfigurationer

Azure Databricks är en molnbaserad plattform som kombinerar de bästa funktionerna inom datateknik och datavetenskap. Det gör att du kan skapa, hantera och analysera datapipelines med hjälp av Apache Spark ett snabbt och skalbart ramverk med öppen källkod för bearbetning av stordata. Azure Databricks tillhandahåller också en samarbetsyta där dataforskare och tekniker kan arbeta tillsammans med projekt för maskininlärning och artificiell intelligens.

Om du arbetar inom myndigheter eller offentlig sektor ger den här dokumentationen om referensarkitektur åsiktsbaserad vägledning för att använda Azure Databricks med en suverän landningszon eller Azure landningszon distribution med principinitiativ för suveränitetsbaslinje tillämpade .

Produktdokumentationen för Azure Databricks innehåller omfattande information om olika artiklar. Det här dokumentet kompletterar dokumentationen genom att ge dig granskade rekommendationer om viktiga begrepp och alternativ för att konfigurera en Azure Databricks-miljö.

Viktiga funktioner i Azure Databricks

Azure Databricks har en omfattande uppsättning funktioner, men för den här referensarkitekturen fokuserar vi på dess infrastrukturelement. Azure Databricks erbjuder:

  • Interaktiva notebook-filer: Använd notebook-filer för att skriva kod i Python, Scala, SQL eller R och visualisera resultaten med diagram och grafer. Dela och kommentera anteckningsböcker med teammedlemmar och integrera dem med populära verktyg som GitHub och Azure DevOps.

  • Beräkningsalternativ: Azure Databricks tillhandahåller olika beräkningsalternativ för att stödja arbetsbelastningar för datateknik, datavetenskap och dataanalys. Dessa alternativ omfattar skalbar serverlös beräkning på begäran för notebook-filer och jobb, etablerad beräkning för analys för alla syften och automatiserade jobb samt SQL lager för att köra SQL kommandon. Instanspooler erbjuder inaktiva, färdiga instanser för att minska start- och autoskalningstiderna, vilket förbättrar effektiviteten i olika databehandlingsscenarier.

  • Dataintegrering: Anslut enkelt till olika datakällor och destinationer, till exempel Azure Blob Storage, Azure Data Lake Storage Azure SQL Database, Azure Synapse Analytics Azure Cosmos DB och mer. Använd Delta Lake, en tillförlitlig och högpresterande Data Lake-lösning som stöder ACID-transaktioner och schematvingande.

  • maskininlärning: Skapa, träna och distribuera maskininlärningsmodeller med hjälp av populära ramverk som TensorFlow, PyTorch, Scikit-learn och XGBoost. Använd MLflow, en plattform med öppen källkod för att hantera livscykeln för maskininlärning, för att spåra experiment, logga mått och distribuera modeller.

  • Företagssäkerhet: Få åtkomst till och bearbeta dina data på ett säkert sätt med funktioner som rollbaserad åtkomstkontroll, kryptering, granskning och efterlevnad. Integrera Azure Databricks med Microsoft Entra ID, Azure Key Vault och Azure Private Link för identitets- och dataskydd.

  • Datastyrning och delning: Unity Catalog förenklar datadelning inom organisationer och skyddar analys i molnet genom att tillhandahålla en hanterad version av Deltadelning för extern delning och en enhetlig datastyrningsmodell för data sjöhus.

Databricks-arkitektur på hög nivå

Azure Databricks fungerar från ett kontrollplan och ett beräkningsplan. Referensarkitekturen rekommenderar konfigurationsalternativ i vart och ett av dessa kontrollplan. I följande diagram beskrivs den övergripande Azure Databricks-arkitekturen.

Skärmbild av Databricks-arkitekturen på hög nivå.

Kontrollplan

Kontrollplanet är lager av Azure Databricks som hanterar livscykeln för kluster och jobb samt autentisering och auktorisering av användare och dataåtkomst. Kontrollplanet innehåller serverdelstjänster som hanteras av Azure Databricks i ditt Azure Databricks-konto. Webbprogrammet finns i kontrollplanet.

Kontrollplanet körs i en Azure prenumeration som ägs av Azure Databricks och kommunicerar med de klassiska och serverlösa beräkningsplanen via säkra API:er. Kontrollplanet tillhandahåller även webbgränssnittet och REST-API:erna så att användarna kan interagera med Azure Databricks.

Beräkningsplan

Beräkningsplanet är den plats där dina data bearbetas. Dit finns två typer av beräkningsplan – serverlösa och klassiska. Det serverlösa beräkningsplanet erbjuder omedelbara och elastiska resurser, medan det klassiska beräkningsplanet förlitar sig på företablerad infrastruktur.

Serverlöst beräkningsplan

Serverlös beräkning är perfekt för ad hoc-frågor, notebook-filer och kortvariga arbetsbelastningar. Du kan till exempel använda serverlös beräkning för att köra SQL kommandon i notebook-filer eller köra förenklade jobb. I det serverlösa beräkningsplanet körs resurser i en beräknings lager i Azure Databricks-kontot.

Azure Databricks skapar ett serverlöst beräkningsplan i samma Azure region som det klassiska beräkningsplanet för din arbetsyta. Den driver en pool med servrar, som finns i Databricks-kontot, som kör Kubernetes-containrar som kan tilldelas en användare inom några sekunder. Mer information finns i Vi presenterar Databricks Serverless SQL: Omedelbar, hanterad, skyddad och produktionsklar plattform för SQL arbetsbelastningar – Databricks-bloggen.

Beräkningsplattformen utökar snabbt klustret med fler servrar när användare kör rapporter eller frågor samtidigt för att hantera den samtidiga belastningen. Databricks hanterar hela konfigurationen av servern och utför automatiskt korrigeringar och uppgraderingar efter behov. Serverlös beräkning debiteras per användning (till exempel per frågekörning eller jobbkörning).

Bilden visar ett serverlöst beräkningsplan.

Varje server kör en säker konfiguration och all bearbetning skyddas av tre isoleringslager – Kubernetes-containern som är värd för körningen, den virtuella dator som är värd för containern och det virtuella nätverket för arbetsytan. Varje lager är isolerat till en arbetsyta utan att delning eller trafik mellan nätverk tillåts.

Containrarna använder härdade konfigurationer, virtuella datorer stängs av och återanvänds inte och nätverkstrafiken begränsas till noder i samma kluster. All beräkning är tillfällig, dedikerad exklusivt till den arbetsbelastningen och rensas på ett säkert sätt när arbetsbelastningen är klar.

All trafik mellan dig, kontrollplanet, beräkningsplanet och molntjänsterna dirigeras via Azure:s globala nätverk, inte det offentliga Internet. Det serverlösa beräkningsplanet för serverlösa SQL lager använder inte den kundkonfigurerbara serverdelen Azure Private Link anslutningen. Databricks-kontrollplanet Azure ansluter till det serverlösa beräkningsplanet med mTLS med IP-åtkomst som endast tillåts för kontrollplanets IP-adress.

All ansluten lagring skyddas av AES-256-kryptering som är branschstandard och all trafik mellan användaren, kontrollplanet, beräkningsplanet och molntjänsterna krypteras med minst TLS 1.2. Serverlösa SQL lagerställen använder inte kundhanterade nycklar för hanterade diskar.

Arbetsbelastningar har inga privilegier eller autentiseringsuppgifter för system utanför arbetsbelastningens omfång och åtkomsten till data sker via kortlivade token (en timme). Dessa token skickas på ett säkert sätt till varje specifik arbetsbelastning.

Från och med juni 2024 stöds inte Azure konfidentiell databehandling för serverlös beräkning, men din arbetsbelastning skyddas av flera isoleringslager som visas i diagrammet Azure Serverlös beräkningsisolering.

Mer information finns i Distribuera dina arbetsbelastningar på ett säkert sätt på serverlös beräkning.

Klassiskt beräkningsplan

Det klassiska beräkningsplanet är lämpligt för långvariga jobb, produktionsarbetsbelastningar och konsekventa resursbehov. Du kan till exempel använda etablerad beräkning för ETL-pipelines, maskininlärning träning och datateknikuppgifter.

Ett klassiskt beräkningsplan har naturlig isolering eftersom det körs i din egen Azure prenumeration. Nya beräkningsresurser skapas och konfigureras i varje arbetsytas virtuella nätverk i din Azure prenumeration. Beräkningsresurser förblir konstanta tills de uttryckligen ändras och faktureras baserat på instanstyp och varaktighet. Kluster kan använda kundhanterade nycklar för hanterade diskar och instanser av oanvänd kapacitet stöds.

Azure Databricks-administratörer kan använda klusterprinciper för att styra många aspekter av klustren, inklusive tillgängliga instanstyper, Databricks-versioner och instansstorlekar.

Databricks virtuell nätverksinmatning är en funktion som gör att du kan distribuera Azure klassiska Databricks-beräkningsplansresurser i ditt eget virtuella nätverk. Den här funktionen hjälper dig att ansluta Azure Databricks till andra Azure tjänster på ett säkrare sätt med hjälp av tjänstslutpunkter eller privata slutpunkter. Du kan också använda peering för virtuella nätverk för att peer-koppla det virtuella nätverk som din Azure Databricks-arbetsyta körs med ett annat Azure virtuellt nätverk.