Freigeben über


Azure Databricks-Konzepte

In diesem Artikel werden die grundlegenden Konzepte vorgestellt, mit denen Sie vertraut sein müssen, um den Azure Databricks-Arbeitsbereich effektiv nutzen zu können.

Konten und Arbeitsbereiche

In Azure Databricks ist ein Arbeitsbereich eine Azure Databricks-Bereitstellung in der Cloud, die als Umgebung für Ihr Team für den Zugriff auf Databricks-Ressourcen fungiert. Je nach Anforderung kann Ihre Organisation ganz nach Bedarf entweder mehrere Arbeitsbereiche verwenden oder nur einen einzelnen.

Ein Azure Databricks-Konto stellt eine einzelne Entität dar, die mehrere Arbeitsbereiche umfassen kann. Mithilfe von Konten, die für Unity Catalog aktiviert sind, können Benutzer und ihr Zugriff auf Daten zentral in allen Arbeitsbereichen im Konto verwaltet werden.

Abrechnung: Databricks-Einheiten (DBUs)

Azure Databricks rechnet auf der Grundlage von Databricks-Einheiten (DBUs) ab, Einheiten der Verarbeitungskapazität pro Stunde auf der Grundlage des VM-Instanztyps.

Weitere Informationen finden Sie auf der Azure Databricks-Preisseite.

Authentifizierung und Autorisierung

In diesem Abschnitt werden Konzepte beschrieben, mit denen Sie vertraut sein müssen, wenn Sie Azure Databricks-Identitäten und deren Zugriff auf Azure Databricks-Ressourcen verwalten.

Benutzer

Eine Einzelperson mit Zugriff auf das System. Benutzeridentitäten werden durch E-Mail-Adressen dargestellt. Weitere Informationen finden Sie unter Verwalten von Benutzern.

Dienstprinzipal

Eine Dienstidentität zur Verwendung mit Aufträgen, automatisierten Tools und Systemen wie Skripts, Apps und CI/CD-Plattformen. Dienstprinzipale werden durch eine Anwendungs-ID dargestellt. Siehe Verwalten von Dienstprinzipalen.

Group

Eine Sammlung von Identitäten. Gruppen vereinfachen die Identitätsverwaltung und erleichtern die Zuweisung des Zugriffs auf Arbeitsbereiche, Daten und andere sicherungsfähige Objekte. Alle Databricks-Identitäten können als Mitglieder von Gruppen zugewiesen werden. Weitere Informationen finden Sie unter Verwalten von Gruppen.

Zugriffssteuerungsliste (Access Control List, ACL)

Eine Liste der Berechtigungen, die an den Arbeitsbereich, den Cluster, den Auftrag, die Tabelle oder das Experiment angefügt sind. Eine Zugriffssteuerungsliste gibt an, welchen Benutzern oder Systemprozessen Zugriff auf die Objekte gewährt wird und welche Vorgänge für die Ressourcen zulässig sind. In einer typischen ACL umfasst jeder Eintrag ein Subjekt und einen Vorgang. Siehe Zugriffssteuerungslisten.

Persönliches Zugriffstoken (Personal Access Token, PAT)

Ein persönliches Zugriffstoken ist eine Zeichenfolge zum Authentifizieren von REST-API-Aufrufen, Technologiepartnerverbindungen und anderen Tools. Siehe Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken.

Microsoft Entra ID-Token können auch zur Authentifizierung bei der REST-API verwendet werden.

Azure Databricks-Schnittstellen

In diesem Abschnitt werden die Schnittstellen für den Zugriff auf Ihre Ressourcen in Azure Databricks beschrieben.

UI

Die Azure Databricks-Benutzeroberfläche ist eine grafische Benutzeroberfläche für die Interaktion mit Features wie z. B. mit Arbeitsbereichsordnern und den darin enthaltenen Objekten, Datenobjekten und Computeressourcen.

REST-API

Die Databricks-REST-API stellt Endpunkte zum Ändern oder Anfordern von Informationen zu Azure Databricks-Konto- und Arbeitsbereichsobjekten bereit. Siehe Kontoreferenz und Arbeitsbereichsreferenz.

SQL-REST-API

Mit der SQL REST-API können Sie Aufgaben für SQL-Objekte automatisieren. Weitere Informationen finden Sie unter SQL-API.

BEFEHLSZEILENSCHNITTSTELLE (CLI)

Die Databricks CLI wird auf GitHub gehostet. Die CLI basiert auf der Databricks-REST-API.

Datenverwaltung

In diesem Abschnitt werden die logischen Objekte beschrieben, die Daten speichern, die Sie in maschinelle Lernalgorithmen einfügen und auf denen Sie Analysen durchführen. Außerdem wird die plattforminterne Benutzeroberfläche zum Untersuchen und Verwalten von Datenobjekten beschrieben.

Unity Catalog

Unity Catalog ist eine einheitliche Governance-Lösung für Daten und KI-Ressourcen in Azure Databricks, die zentralisierte Funktionen für Zugriffssteuerung, Überwachung, Herkunft und Datenermittlung für Databricks-Arbeitsbereiche bietet. Siehe Was ist Unity Catalog?.

DBFS-Stamm

Wichtig

Das Speichern und Zugreifen auf Daten mithilfe von DBFS-Stamm oder DBFS-Bereitstellungen ist ein veraltetes Muster und wird von Databricks nicht empfohlen. Databricks empfiehlt stattdessen die Verwendung des Unity Catalog, um den Zugriff auf alle Daten zu verwalten. Siehe Was ist Unity Catalog?.

Der DBFS-Stamm ist ein Speicherort, der standardmäßig für alle Benutzer verfügbar ist. Weitere Informationen unter Was ist DBFS?.

Katalog-Explorer

Mit dem Katalog-Explorer können Sie Daten und KI-Ressourcen, einschließlich Schemas (Datenbanken), Tabellen, Modelle, Volumes (nicht tabellarische Daten), Funktionen und registrierte ML-Modelle, untersuchen und verwalten. Sie können es verwenden, um Datenobjekte und Besitzer zu finden, Datenbeziehungen über Tabellen hinweg zu verstehen und Berechtigungen und Freigaben zu verwalten. Siehe Was ist der Katalog-Explorer?.

Datenbank

Eine Sammlung von Datenobjekten, z. B. Tabellen oder Ansichten und Funktionen, die so organisiert sind, dass sie leicht zugänglich, verwaltet und aktualisiert werden können. Weitere Informationen finden Sie unter Was sind Schemas in Azure Databricks?.

Tabelle

Eine Darstellung strukturierter Daten. Tabellen werden über Apache Spark SQL und Apache Spark-APIs abgefragt. Siehe Was sind Tabellen und Ansichten?.

Delta-Tabelle

Standardmäßig sind alle in Azure Databricks erstellten Tabellen Delta-Tabellen. Delta-Tabellen basieren auf dem Delta Lake Open Source-Projekt, einem Framework für leistungsstarken ACID-Tabellenspeicher über Cloudobjektspeicher. Eine Delta-Tabelle speichert Daten als Datenverzeichnis im Cloudobjektspeicher und registriert Tabellenmetadaten im Metaspeicher innerhalb eines Katalogs und Schemas.

Erfahren Sie mehr über Technologien, die als Delta gebrandet werden.

Metastore

Die Komponente, in der alle Strukturinformationen der verschiedenen Tabellen und Partitionen im Data Warehouse gespeichert werden. Hierzu zählen unter anderem Spalten- und Spaltentypinformationen, die zum Lesen und Schreiben von Daten erforderlichen Serialisierer und Deserialisierer sowie die entsprechenden Dateien, in denen die Daten gespeichert sind. Weitere Informationen finden Sie unter Metastores.

Jede Azure Databricks-Bereitstellung verfügt über einen zentralen Hive-Metastore, auf den alle Cluster zugreifen können, um Tabellenmetadaten dauerhaft zu speichern. Sie können auch einen bereits vorhandenen externen Hive-Metastore verwenden.

Berechnungsmanagement

In diesem Abschnitt werden Konzepte beschrieben, mit denen Sie vertraut sein müssen, um Berechnungen in Azure Databricks ausführen zu können.

Cluster

Eine Reihe von Berechnungsressourcen und Konfigurationen, mit denen Sie Notebooks und Aufträge ausführen. Es gibt zwei Arten von Clustern: Universalcluster und Auftragscluster. Siehe Compute.

  • Universalcluster können über die Benutzeroberfläche, mithilfe der CLI oder per REST-API erstellt werden. Sie können einen Universalcluster manuell beenden und neu starten. Diese Cluster können von mehreren Benutzern gemeinsam verwendet werden, um an interaktiven Analysen zusammenzuarbeiten.
  • Der Auftragsplaner von Azure Databricks erstellt einen Auftragscluster, wenn Sie einen Auftrag in einem neuen Auftragscluster ausführen, und beendet den Cluster, wenn der Auftrag abgeschlossen ist. Auftragscluster können nicht neu gestartet werden.

Pool

Eine Reihe sofort einsatzbereiter Instanzen, die sich im Leerlauf befinden und die Zeit für den Clusterstart und die automatische Skalierung verkürzen. Wenn ein Cluster an einen Pool angefügt wird, werden seine Treiber- und Workerknoten aus dem Pool zugeordnet. Siehe Poolkonfigurationsreferenz.

Verfügt der Pool nicht über genügend Leerlaufressourcen für die Anforderung des Clusters, wird der Pool erweitert, indem neue Instanzen des Instanzanbieters zugewiesen werden. Wenn ein angefügter Cluster beendet wird, werden die verwendeten Instanzen an den Pool zurückgegeben und können von einem anderen Cluster wiederverwendet werden.

Databricks-Runtime

Die Kernkomponenten, die auf der Grundlage der von Azure Databricks verwalteten Cluster ausgeführt werden. Siehe Compute. Azure Databricks verfügt über die folgenden Runtimes:

  • Databricks Runtime umfasst Apache Spark sowie eine Reihe von Komponenten und Updates, die die Benutzerfreundlichkeit, Leistung und Sicherheit von Big Data-Analysen erheblich verbessern.
  • Databricks Runtime für Machine Learning basiert auf Databricks Runtime und bietet eine vorgefertigte Machine Learning-Infrastruktur, die in alle Funktionen des Azure Databricks-Arbeitsbereichs integriert ist. und umfasst mehrere gängige Bibliotheken, darunter TensorFlow, Keras, PyTorch und XGBoost.

Workflows

Über die Benutzeroberfläche des Workflows-Arbeitsbereichs gelangen Sie zu den Auftrags- und DLT-Pipelines. Dabei handelt es sich um Tools, mit denen Sie Workflows orchestrieren und planen können.

Aufträge

Ein nicht interaktiver Mechanismus zum Orchestrieren und Planen von Notebooks, Bibliotheken und anderen Aufgaben Siehe Planen und Orchestrieren von Workflows

Pipelines

Delta Live Tables-Pipelines bieten ein deklaratives Framework für die Erstellung zuverlässiger, verwaltbarer und testbarer Datenverarbeitungspipelines. Weitere Informationen finden Sie unter Was sind Delta Live-Tabellen?.

Workload

Workload ist die Menge der Verarbeitungsfunktion, die zum Ausführen einer Aufgabe oder Gruppe von Aufgaben erforderlich ist. Azure Databricks identifiziert zwei Arten von Workloads: Data Engineering (Job) und Data Analytics (all-purpose).

  • Datentechnik: Eine (automatisierte) Workload wird in einem Auftragscluster ausgeführt, der vom Azure Databricks Auftragsplaner für jede Workload erstellt wird.
  • Datenanalyse: Eine (interaktive) Workload wird in einem Universalcluster ausgeführt. Von interaktiven Workloads werden in der Regel Befehle in einem Azure Databricks-Notebook ausgeführt. Das Ausführen eines Auftrags in einem vorhandenen Universalcluster wird allerdings ebenfalls als interaktive Workload behandelt.

Ausführungskontext

Der Status für eine Read-Eval-Print-Loop-(REPL-)Umgebung für jede unterstützte Programmiersprache. Zu den unterstützten Sprachen zählen Python, R, Scala und SQL.

Datentechnik

Data Engineering Tools unterstützen die Zusammenarbeit zwischen Datenwissenschaftlern, Dateningenieuren, Datenanalysten und Machine Learning-Ingenieuren.

Arbeitsbereich

Ein Arbeitsbereich ist eine Umgebung, in der Sie auf alle Ihre Azure Databricks-Ressourcen zugreifen können. In einem Arbeitsbereich werden Objekte (Notebooks, Bibliotheken, Dashboards und Experimente) in Ordnern strukturiert, und er ermöglicht den Zugriff auf Datenobjekte und Computeressourcen.

Notebook

Eine webbasierte Schnittstelle zum Erstellen von Data Science- und Machine Learning-Workflows, die ausführungsfähige Befehle, Visualisierungen und narrativen Text enthalten können. Siehe Einführung in Databricks-Notebooks.

Bibliothek

Ein Paket mit Code, das für das Notebook oder den Auftrag verfügbar ist, das bzw. der in Ihrem Cluster ausgeführt wird. Databricks-Runtimes enthalten zahlreiche Bibliotheken, und Sie können auch eigene Bibliotheken hochladen. Weitere Informationen finden Sie unter Bibliotheken.

Git-Ordner (ehemals Repos)

Ein Ordner, dessen Inhalte mittels Synchronisierung mit einem Git-Remoterepository gemeinsam versioniert werden. Databricks-Git-Ordner sind in Git integriert und stellen die Quellcode- und Versionskontrolle für Ihre Projekte bereit.

KI und Machine Learning

Databricks bietet eine integrierte End-to-End-Umgebung mit verwalteten Diensten für die Entwicklung und Bereitstellung von KI- und Machine Learning-Anwendungen.

Mosaic AI

Der Markenname für Produkte und Dienstleistungen von Databricks Mosaic AI Research, einem Team von Forschern und Ingenieuren, die für Databricks größte Durchbrüche bei der generativen KI verantwortlich sind. Mosaic AI-Produkte umfassen die ML- und KI-Features in Databricks. Siehe Mosaic Recherche.

Machine Learning Runtime

Um Ihnen bei der Entwicklung von ML- und KI-Modellen zu helfen, bietet Databricks eine Databricks-Runtime für Maschinelles Lernen, die die Berechnungserstellung mit vordefinierten Machine Learning- und Deep Learning-Infrastruktur automatisiert, einschließlich der am häufigsten verwendeten ML- und DL-Bibliotheken. Darüber hinaus verfügt die Lösung über integrierte, vorkonfigurierte GPU-Unterstützung, einschließlich Treibern und unterstützenden Bibliotheken. Navigieren Sie zu Informationen zu den neuesten Laufzeitversionen von Databricks Runtime– Versionshinweisen und Kompatibilitätsversionen.

Experiment

Eine Sammlung von MLflow-Ausführungen zum Trainieren eines Machine Learning-Modells. Weitere Informationen finden Sie unter Organisieren von Trainingsausführungen mit MLflow-Experimenten.

Features

Features sind eine wichtige Komponente von ML-Modellen. Ein Featurespeicher ermöglicht die Ermittlung und gemeinsame Nutzung von Features in Ihrer gesamten Organisation und stellt zudem sicher, dass für Modelltraining und Rückschlüsse der gleiche Featureberechnungscode verwendet wird. Weitere Informationen finden Sie unter Feature Engineering und Featurebereitstellung.

GenAI-Modelle

Databricks unterstützt die Erforschung, Entwicklung und den Einsatz von generativen KI-Modellen, einschließlich:

Modellregistrierung

Databricks stellt eine gehostete Version der MLflow-Modellregistrierung in Unity Catalog bereit. Modelle, die im Unity-Katalog registriert sind, erben zentrale Zugriffssteuerung, Linienführung und arbeitsbereichübergreifende Ermittlung und Zugriff. Weitere Informationen dazu finden Sie unter Verwalten des Lebenszyklus von Modellen in Unity Catalog.

Modellbereitstellung

Mosaic AI Model Serving bietet eine einheitliche Schnittstelle zum Bereitstellen, Steuern und Abfragen Ihrer bereitgestellten KI-Modelle. Jedes von Ihnen bereitgestellte Modell ist als REST-API verfügbar, die Sie in Ihre Web- oder Clientanwendung integrieren können. Mit Mosaic AI Model Serving können Sie eigene Modelle, Foundationmodelle oder Drittanbietermodelle bereitstellen, die außerhalb von Databricks gehostet werden. Weitere Informationen finden Sie unter Modellbereitstellung mit Azure Databricks.

Data Warehousing

Data Warehousing bezieht sich auf das Sammeln und Speichern von Daten aus mehreren Quellen, sodass schnell auf Geschäftserkenntnisse und Berichte zugegriffen werden kann. Databricks SQL ist die Sammlung von Diensten, die Data Warehouse-Funktionen und Leistung für Ihre vorhandenen Data Lakes bereitstellen. Siehe Was ist Data Warehousing in Azure Databricks?.

Abfrage

Eine Abfrage ist eine gültige SQL-Anweisung, mit der Sie mit Ihren Daten interagieren können. Sie können Abfragen mithilfe des in-plattformbasierten SQL-Editors erstellen oder eine Verbindung mittels SQL-Connector, Treiber oder API herstellen. Weitere Informationen zum Arbeiten mit Abfragen finden Sie unter Access und Verwalten gespeicherter Abfragen.

SQL-Warehouse

Eine Berechnungsressource, für die Sie SQL-Abfragen ausführen. Es gibt drei Arten von SQL-Lagerhäusern: Klassisch, Pro und Serverless. Azure Databricks empfiehlt die Verwendung serverloser Lagerhäuser, sofern verfügbar. Lesen Sie SQL-Lagertypen, um die verfügbaren Features für jeden Lagertyp zu vergleichen.

Abfrageverlauf

Eine Liste der ausgeführten Abfragen und deren Leistungsmerkmale. Mit dem Abfrageverlauf können Sie die Abfrageleistung überwachen, Engpässe erkennen und Abfragelaufzeiten optimieren. Weitere Informationen finden Sie unter Abfrageverlauf.

Visualisierung

Eine grafische Darstellung des Ergebnisses der Ausführung einer Abfrage. Siehe Visualisierungen in Databricks-Notebooks.

Dashboard

Eine Präsentation von Datenvisualisierungen und Kommentaren. Sie können Dashboards verwenden, um Berichte automatisch an alle Personen in Ihrem Azure Databricks-Konto zu senden. Verwenden Sie den Databricks-Assistenten, um Visualisierungen basierend auf natürlichen Eingabeaufforderungen zu erstellen. Siehe Dashboards. Sie können auch ein Dashboard aus einem Notizbuch erstellen. Weitere Informationen finden Sie unter Dashboards in Notebooks.

Weitere Informationen zu Legacy-Dashboards finden Sie unter Legacy-Dashboards.

Wichtig

  • Databricks empfiehlt die Verwendung von KI/BI-Dashboards (ehemals Lakeview-Dashboards). Frühere Versionen von Dashboards, die zuvor als Databricks-SQL-Dashboards bezeichnet werden, werden jetzt als Legacy-Dashboards bezeichnet. Databricks rät davon ab, neue Legacy-Dashboards zu erstellen.
  • Konvertieren Sie Legacy-Dashboards mithilfe des Migrationstools oder der REST-API. Anweisungen zur Verwendung des integrierten Migrationstools finden Sie unter Klonen eines Legacy-Dashboards in einem KI/BI-Dashboard. Tutorials zum Erstellen und Verwalten von Dashboards mithilfe der REST-API finden Sie unter Dashboard-Tutorials.