Belangrijke concepten begrijpen
Azure Databricks is één serviceplatform met meerdere technologieën waarmee u op schaal met gegevens kunt werken. Wanneer u Azure Databricks gebruikt, zijn er enkele belangrijke concepten die u moet begrijpen.
Workspaces
Een werkruimte is een omgeving voor toegang tot alle Databricks-assets. Het biedt een gebruikersinterface voor het beheren van notebooks, bibliotheken en experimenten. Werkruimten kunnen worden ingedeeld in mappen en worden gedeeld tussen teamleden, waardoor samenwerking en resourcebeheer wordt vergemakkelijkt.
Notebooks
Databricks-notebooks zijn interactieve documenten die uitvoerbare code, visualisaties en verhaaltekst bevatten. Ze ondersteunen meerdere talen, waaronder Python, R, Scala en SQL, die tegelijkertijd in hetzelfde notebook kunnen worden gebruikt. Notebooks zijn centraal in gezamenlijke projecten en zijn ideaal voor verkennende gegevensanalyse, gegevensvisualisatie en complexe gegevenswerkstromen.
Clusters
Clusters zijn de rekenkundige engines van Azure Databricks. Gebruikers kunnen clusters maken en schalen op basis van de benodigde rekenbronnen. Clusters kunnen handmatig worden geconfigureerd of worden ingesteld op automatisch schalen op basis van de workload. Ze ondersteunen verschillende typen knooppunten voor verschillende taken, zoals stuurprogramma- en werkknooppunten, waardoor efficiënt resourcegebruik wordt gegarandeerd.
Projecten
Taken in Azure Databricks worden gebruikt om geautomatiseerde taken te plannen en uit te voeren. Deze taken kunnen notebookuitvoeringen, Spark-taken of willekeurige code-uitvoeringen zijn. Taken kunnen volgens een planning worden geactiveerd of worden uitgevoerd als reactie op bepaalde gebeurtenissen, zodat u eenvoudig werkstromen en periodieke gegevensverwerkingstaken kunt automatiseren.
Databricks Runtime
Databricks Runtime is een set voor prestaties geoptimaliseerde versies van Apache Spark. Het bevat verbeteringen voor verbeterde prestaties en aanvullende functionaliteit buiten standaard Spark, zoals optimalisaties voor machine learning-workloads, grafiekverwerking en genomics.
Delta Lake
Delta Lake is een opensource-opslaglaag die betrouwbaarheid en schaalbaarheid biedt voor data lakes. Het biedt ACID-transacties, schaalbare verwerking van metagegevens en unifies streaming en batchgegevensverwerking, die allemaal cruciaal zijn voor het beheren van grootschalige gegevens op een consistente en fouttolerante manier.
Databricks SQL
Databricks SQL biedt een manier om SQL-query's uit te voeren op de gegevens in Azure Databricks. Hiermee kunnen gegevensanalisten snelle ad-hocquery's uitvoeren en rapporten rechtstreeks op big data maken. Het bevat een SQL-editor, dashboards en hulpprogramma's voor automatische visualisatie, waardoor het gebruiksvriendelijk is voor degenen die gewend zijn aan SQL-omgevingen.
MLflow
MLflow is een opensource-platform voor het beheren van de end-to-end levenscyclus van machine learning. Het bevat functies voor het bijhouden van experimenten, modelbeheer en implementatie, waardoor beoefenaars hun ML-modellen en experimenten efficiënt kunnen beheren en delen.