Förstå viktiga begrepp

Slutförd

Azure Databricks är en enda tjänstplattform med flera tekniker som gör det möjligt att arbeta med data i stor skala. När du använder Azure Databricks finns det några viktiga begrepp att förstå.

Arbetsytor

En arbetsyta är en miljö för åtkomst till alla Databricks-tillgångar. Det ger ett användargränssnitt för att hantera notebook-filer, bibliotek och experiment. Arbetsytor kan ordnas i mappar och delas mellan gruppmedlemmar, vilket underlättar samarbete och resurshantering.

Notebook-filer

Databricks-notebook-filer är interaktiva dokument som innehåller runnbar kod, visualiseringar och narrativ text. De stöder flera språk, inklusive Python, R, Scala och SQL, som kan användas samtidigt i samma notebook-fil. Notebook-filer är centrala för samarbetsprojekt och är idealiska för undersökande dataanalys, datavisualisering och komplexa dataarbetsflöden.

Kluster

Kluster är beräkningsmotorerna i Azure Databricks. Användare kan skapa och skala kluster enligt de beräkningsresurser som behövs. Kluster kan konfigureras manuellt eller ställas in på automatisk skalning baserat på arbetsbelastning. De stöder olika typer av noder för olika uppgifter, till exempel drivrutins- och arbetsnoder, vilket säkerställer effektiv resursanvändning.

Projekt

Jobb i Azure Databricks används för att schemalägga och köra automatiserade uppgifter. Dessa uppgifter kan vara notebook-körningar, Spark-jobb eller godtyckliga kodkörningar. Jobb kan utlösas enligt ett schema eller köras som svar på vissa händelser, vilket gör det enkelt att automatisera arbetsflöden och periodiska databearbetningsuppgifter.

Databricks Runtime

Databricks Runtime är en uppsättning prestandaoptimerade versioner av Apache Spark. Den innehåller förbättringar för bättre prestanda och ytterligare funktioner utöver Standard Spark, till exempel optimeringar för maskininlärningsarbetsbelastningar, grafbearbetning och genomik.

Data Lake

Delta Lake är ett lagringslager med öppen källkod som ger datasjöar tillförlitlighet och skalbarhet. Den tillhandahåller ACID-transaktioner, skalbar metadatahantering och förenar bearbetning av strömnings- och batchdata, vilket är avgörande för att hantera storskaliga data på ett konsekvent och feltolerant sätt.

Databricks SQL

Databricks SQL är ett sätt att utföra SQL-frågor på data i Azure Databricks. Det gör att dataanalytiker kan köra snabba ad hoc-frågor och skapa rapporter direkt på stordata. Den innehåller en SQL-redigerare, instrumentpaneler och automatiska visualiseringsverktyg, vilket gör den användarvänlig för dem som är vana vid SQL-miljöer.

MLflow

MLflow är en plattform med öppen källkod för att hantera livscykeln för maskininlärning från slutpunkt till slutpunkt. Den innehåller funktioner för experimentspårning, modellhantering och distribution, vilket hjälper utövare att hantera och dela sina ML-modeller och experiment effektivt.