Azure Databricks-Konzepte
In diesem Artikel werden die grundlegenden Konzepte vorgestellt, mit denen Sie vertraut sein müssen, um den Azure Databricks-Arbeitsbereich effektiv nutzen zu können.
Konten und Arbeitsbereiche
In Azure Databricks ist ein Arbeitsbereich eine Azure Databricks-Bereitstellung in der Cloud, die als Umgebung für Ihr Team für den Zugriff auf Databricks-Ressourcen fungiert. Je nach Anforderung kann Ihre Organisation ganz nach Bedarf entweder mehrere Arbeitsbereiche verwenden oder nur einen einzelnen.
Ein Azure Databricks-Konto stellt eine einzelne Entität dar, die mehrere Arbeitsbereiche umfassen kann. Mithilfe von Konten, die für Unity Catalog aktiviert sind, können Benutzer und ihr Zugriff auf Daten zentral in allen Arbeitsbereichen im Konto verwaltet werden.
Abrechnung: Databricks-Einheiten (DBUs)
Azure Databricks rechnet auf der Grundlage von Databricks-Einheiten (DBUs) ab, Einheiten der Verarbeitungskapazität pro Stunde auf der Grundlage des VM-Instanztyps.
Weitere Informationen finden Sie auf der Azure Databricks-Preisseite.
Authentifizierung und Autorisierung
In diesem Abschnitt werden Konzepte beschrieben, mit denen Sie vertraut sein müssen, wenn Sie Azure Databricks-Identitäten und deren Zugriff auf Azure Databricks-Ressourcen verwalten.
Benutzer
Eine Einzelperson mit Zugriff auf das System. Benutzeridentitäten werden durch E-Mail-Adressen dargestellt. Weitere Informationen finden Sie unter Verwalten von Benutzern.
Dienstprinzipal
Eine Dienstidentität zur Verwendung mit Aufträgen, automatisierten Tools und Systemen wie Skripts, Apps und CI/CD-Plattformen. Dienstprinzipale werden durch eine Anwendungs-ID dargestellt. Siehe Verwalten von Dienstprinzipalen.
Group
Eine Sammlung von Identitäten. Gruppen vereinfachen die Identitätsverwaltung und erleichtern die Zuweisung des Zugriffs auf Arbeitsbereiche, Daten und andere sicherungsfähige Objekte. Alle Databricks-Identitäten können als Mitglieder von Gruppen zugewiesen werden. Weitere Informationen finden Sie unter Verwalten von Gruppen.
Zugriffssteuerungsliste (Access Control List, ACL)
Eine Liste der Berechtigungen, die an den Arbeitsbereich, den Cluster, den Auftrag, die Tabelle oder das Experiment angefügt sind. Eine Zugriffssteuerungsliste gibt an, welchen Benutzern oder Systemprozessen Zugriff auf die Objekte gewährt wird und welche Vorgänge für die Ressourcen zulässig sind. In einer typischen ACL umfasst jeder Eintrag ein Subjekt und einen Vorgang. Siehe Zugriffssteuerungslisten.
Persönliches Zugriffstoken (Personal Access Token, PAT)
Ein persönliches Zugriffstoken ist eine Zeichenfolge zum Authentifizieren von REST-API-Aufrufen, Technologiepartnerverbindungen und anderen Tools. Siehe Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken.
Microsoft Entra ID-Token können auch zur Authentifizierung bei der REST-API verwendet werden.
Azure Databricks-Schnittstellen
In diesem Abschnitt werden die Schnittstellen für den Zugriff auf Ihre Ressourcen in Azure Databricks beschrieben.
UI
Die Azure Databricks-Benutzeroberfläche ist eine grafische Benutzeroberfläche für die Interaktion mit Features wie z. B. mit Arbeitsbereichsordnern und den darin enthaltenen Objekten, Datenobjekten und Computeressourcen.
REST-API
Die Databricks-REST-API stellt Endpunkte zum Ändern oder Anfordern von Informationen zu Azure Databricks-Konto- und Arbeitsbereichsobjekten bereit. Siehe Kontoreferenz und Arbeitsbereichsreferenz.
SQL-REST-API
Mit der SQL REST-API können Sie Aufgaben für SQL-Objekte automatisieren. Weitere Informationen finden Sie unter SQL-API.
BEFEHLSZEILENSCHNITTSTELLE (CLI)
Die Databricks CLI wird auf GitHub gehostet. Die CLI basiert auf der Databricks-REST-API.
Datenverwaltung
In diesem Abschnitt werden die logischen Objekte beschrieben, die Daten speichern, die Sie in maschinelle Lernalgorithmen einfügen und auf denen Sie Analysen durchführen. Außerdem wird die plattforminterne Benutzeroberfläche zum Untersuchen und Verwalten von Datenobjekten beschrieben.
Unity Catalog
Unity Catalog ist eine einheitliche Governance-Lösung für Daten und KI-Ressourcen in Azure Databricks, die zentralisierte Funktionen für Zugriffssteuerung, Überwachung, Herkunft und Datenermittlung für Databricks-Arbeitsbereiche bietet. Siehe Was ist Unity Catalog?.
DBFS-Stamm
Wichtig
Das Speichern und Zugreifen auf Daten mithilfe von DBFS-Stamm oder DBFS-Bereitstellungen ist ein veraltetes Muster und wird von Databricks nicht empfohlen. Databricks empfiehlt stattdessen die Verwendung des Unity Catalog, um den Zugriff auf alle Daten zu verwalten. Siehe Was ist Unity Catalog?.
Der DBFS-Stamm ist ein Speicherort, der standardmäßig für alle Benutzer verfügbar ist. Weitere Informationen unter Was ist DBFS?.
Katalog-Explorer
Mit dem Katalog-Explorer können Sie Daten und KI-Ressourcen, einschließlich Schemas (Datenbanken), Tabellen, Modelle, Volumes (nicht tabellarische Daten), Funktionen und registrierte ML-Modelle, untersuchen und verwalten. Sie können es verwenden, um Datenobjekte und Besitzer zu finden, Datenbeziehungen über Tabellen hinweg zu verstehen und Berechtigungen und Freigaben zu verwalten. Siehe Was ist der Katalog-Explorer?.
Datenbank
Eine Sammlung von Datenobjekten, z. B. Tabellen oder Ansichten und Funktionen, die so organisiert sind, dass sie leicht zugänglich, verwaltet und aktualisiert werden können. Weitere Informationen finden Sie unter Was sind Schemas in Azure Databricks?.
Tabelle
Eine Darstellung strukturierter Daten. Tabellen werden über Apache Spark SQL und Apache Spark-APIs abgefragt. Siehe Was sind Tabellen und Ansichten?.
Delta-Tabelle
Standardmäßig sind alle in Azure Databricks erstellten Tabellen Delta-Tabellen. Delta-Tabellen basieren auf dem Delta Lake Open Source-Projekt, einem Framework für leistungsstarken ACID-Tabellenspeicher über Cloudobjektspeicher. Eine Delta-Tabelle speichert Daten als Datenverzeichnis im Cloudobjektspeicher und registriert Tabellenmetadaten im Metaspeicher innerhalb eines Katalogs und Schemas.
Erfahren Sie mehr über Technologien, die als Delta gebrandet werden.
Metastore
Die Komponente, in der alle Strukturinformationen der verschiedenen Tabellen und Partitionen im Data Warehouse gespeichert werden. Hierzu zählen unter anderem Spalten- und Spaltentypinformationen, die zum Lesen und Schreiben von Daten erforderlichen Serialisierer und Deserialisierer sowie die entsprechenden Dateien, in denen die Daten gespeichert sind. Weitere Informationen finden Sie unter Metastores.
Jede Azure Databricks-Bereitstellung verfügt über einen zentralen Hive-Metastore, auf den alle Cluster zugreifen können, um Tabellenmetadaten dauerhaft zu speichern. Sie können auch einen bereits vorhandenen externen Hive-Metastore verwenden.
Berechnungsmanagement
In diesem Abschnitt werden Konzepte beschrieben, mit denen Sie vertraut sein müssen, um Berechnungen in Azure Databricks ausführen zu können.
Cluster
Eine Reihe von Berechnungsressourcen und Konfigurationen, mit denen Sie Notebooks und Aufträge ausführen. Es gibt zwei Arten von Clustern: Universalcluster und Auftragscluster. Siehe Compute.
- Universalcluster können über die Benutzeroberfläche, mithilfe der CLI oder per REST-API erstellt werden. Sie können einen Universalcluster manuell beenden und neu starten. Diese Cluster können von mehreren Benutzern gemeinsam verwendet werden, um an interaktiven Analysen zusammenzuarbeiten.
- Der Auftragsplaner von Azure Databricks erstellt einen Auftragscluster, wenn Sie einen Auftrag in einem neuen Auftragscluster ausführen, und beendet den Cluster, wenn der Auftrag abgeschlossen ist. Auftragscluster können nicht neu gestartet werden.
Pool
Eine Reihe sofort einsatzbereiter Instanzen, die sich im Leerlauf befinden und die Zeit für den Clusterstart und die automatische Skalierung verkürzen. Wenn ein Cluster an einen Pool angefügt wird, werden seine Treiber- und Workerknoten aus dem Pool zugeordnet. Siehe Poolkonfigurationsreferenz.
Verfügt der Pool nicht über genügend Leerlaufressourcen für die Anforderung des Clusters, wird der Pool erweitert, indem neue Instanzen des Instanzanbieters zugewiesen werden. Wenn ein angefügter Cluster beendet wird, werden die verwendeten Instanzen an den Pool zurückgegeben und können von einem anderen Cluster wiederverwendet werden.
Databricks-Runtime
Die Kernkomponenten, die auf der Grundlage der von Azure Databricks verwalteten Cluster ausgeführt werden. Siehe Compute. Azure Databricks verfügt über die folgenden Runtimes:
- Databricks Runtime umfasst Apache Spark sowie eine Reihe von Komponenten und Updates, die die Benutzerfreundlichkeit, Leistung und Sicherheit von Big Data-Analysen erheblich verbessern.
- Databricks Runtime für Machine Learning basiert auf Databricks Runtime und bietet eine vorgefertigte Machine Learning-Infrastruktur, die in alle Funktionen des Azure Databricks-Arbeitsbereichs integriert ist. und umfasst mehrere gängige Bibliotheken, darunter TensorFlow, Keras, PyTorch und XGBoost.
Workflows
Über die Benutzeroberfläche des Workflows-Arbeitsbereichs gelangen Sie zu den Auftrags- und DLT-Pipelines. Dabei handelt es sich um Tools, mit denen Sie Workflows orchestrieren und planen können.
Aufträge
Ein nicht interaktiver Mechanismus zum Orchestrieren und Planen von Notebooks, Bibliotheken und anderen Aufgaben Siehe Planen und Orchestrieren von Workflows
Pipelines
Delta Live Tables-Pipelines bieten ein deklaratives Framework für die Erstellung zuverlässiger, verwaltbarer und testbarer Datenverarbeitungspipelines. Weitere Informationen finden Sie unter Was sind Delta Live-Tabellen?.
Workload
Workload ist die Menge der Verarbeitungsfunktion, die zum Ausführen einer Aufgabe oder Gruppe von Aufgaben erforderlich ist. Azure Databricks identifiziert zwei Arten von Workloads: Data Engineering (Job) und Data Analytics (all-purpose).
- Datentechnik: Eine (automatisierte) Workload wird in einem Auftragscluster ausgeführt, der vom Azure Databricks Auftragsplaner für jede Workload erstellt wird.
- Datenanalyse: Eine (interaktive) Workload wird in einem Universalcluster ausgeführt. Von interaktiven Workloads werden in der Regel Befehle in einem Azure Databricks-Notebook ausgeführt. Das Ausführen eines Auftrags in einem vorhandenen Universalcluster wird allerdings ebenfalls als interaktive Workload behandelt.
Ausführungskontext
Der Status für eine Read-Eval-Print-Loop-(REPL-)Umgebung für jede unterstützte Programmiersprache. Zu den unterstützten Sprachen zählen Python, R, Scala und SQL.
Datentechnik
Data Engineering Tools unterstützen die Zusammenarbeit zwischen Datenwissenschaftlern, Dateningenieuren, Datenanalysten und Machine Learning-Ingenieuren.
Arbeitsbereich
Ein Arbeitsbereich ist eine Umgebung, in der Sie auf alle Ihre Azure Databricks-Ressourcen zugreifen können. In einem Arbeitsbereich werden Objekte (Notebooks, Bibliotheken, Dashboards und Experimente) in Ordnern strukturiert, und er ermöglicht den Zugriff auf Datenobjekte und Computeressourcen.
Notebook
Eine webbasierte Schnittstelle zum Erstellen von Data Science- und Machine Learning-Workflows, die ausführungsfähige Befehle, Visualisierungen und narrativen Text enthalten können. Siehe Einführung in Databricks-Notebooks.
Bibliothek
Ein Paket mit Code, das für das Notebook oder den Auftrag verfügbar ist, das bzw. der in Ihrem Cluster ausgeführt wird. Databricks-Runtimes enthalten zahlreiche Bibliotheken, und Sie können auch eigene Bibliotheken hochladen. Weitere Informationen finden Sie unter Bibliotheken.
Git-Ordner (ehemals Repos)
Ein Ordner, dessen Inhalte mittels Synchronisierung mit einem Git-Remoterepository gemeinsam versioniert werden. Databricks-Git-Ordner sind in Git integriert und stellen die Quellcode- und Versionskontrolle für Ihre Projekte bereit.
KI und Machine Learning
Databricks bietet eine integrierte End-to-End-Umgebung mit verwalteten Diensten für die Entwicklung und Bereitstellung von KI- und Machine Learning-Anwendungen.
Mosaic AI
Der Markenname für Produkte und Dienstleistungen von Databricks Mosaic AI Research, einem Team von Forschern und Ingenieuren, die für Databricks größte Durchbrüche bei der generativen KI verantwortlich sind. Mosaic AI-Produkte umfassen die ML- und KI-Features in Databricks. Siehe Mosaic Recherche.
Machine Learning Runtime
Um Ihnen bei der Entwicklung von ML- und KI-Modellen zu helfen, bietet Databricks eine Databricks-Runtime für Maschinelles Lernen, die die Berechnungserstellung mit vordefinierten Machine Learning- und Deep Learning-Infrastruktur automatisiert, einschließlich der am häufigsten verwendeten ML- und DL-Bibliotheken. Darüber hinaus verfügt die Lösung über integrierte, vorkonfigurierte GPU-Unterstützung, einschließlich Treibern und unterstützenden Bibliotheken. Navigieren Sie zu Informationen zu den neuesten Laufzeitversionen von Databricks Runtime– Versionshinweisen und Kompatibilitätsversionen.
Experiment
Eine Sammlung von MLflow-Ausführungen zum Trainieren eines Machine Learning-Modells. Weitere Informationen finden Sie unter Organisieren von Trainingsausführungen mit MLflow-Experimenten.
Features
Features sind eine wichtige Komponente von ML-Modellen. Ein Featurespeicher ermöglicht die Ermittlung und gemeinsame Nutzung von Features in Ihrer gesamten Organisation und stellt zudem sicher, dass für Modelltraining und Rückschlüsse der gleiche Featureberechnungscode verwendet wird. Weitere Informationen finden Sie unter Feature Engineering und Featurebereitstellung.
GenAI-Modelle
Databricks unterstützt die Erforschung, Entwicklung und den Einsatz von generativen KI-Modellen, einschließlich:
- Ein Playground, eine Chat-ähnliche Umgebung im Arbeitsbereich, in der Sie LLMs testen, auffordern und vergleichen können. Siehe Chatten mit LLMs und Prototypen-GenAI-Apps im KI-Playground.
- Ein integrierter Satz von vorkonfigurierten Grundlagenmodellen, die Sie abfragen können:
- Weitere Informationen finden Sie unter Foundation Model-APIs mit Pay-per-Token.
- Weitere Informationen zu Foundation-Modellen, die Sie mit einem einzigen Klick bereitstellen können, finden Sie unter [Empfohlen] Bereitstellen von Foundation-Modellen aus dem Unity-Katalog.
- Von Drittanbietern gehostete LLMs, die als externe Modelle bezeichnet werden. Diese Modelle sind dafür gedacht, so verwendet zu werden, wie sie sind.
- Fähigkeiten, um ein Basismodell anzupassen und seine Leistung für Ihre spezifische Anwendung zu optimieren. Siehe Foundation Model Fine-Tuning.
Modellregistrierung
Databricks stellt eine gehostete Version der MLflow-Modellregistrierung in Unity Catalog bereit. Modelle, die im Unity-Katalog registriert sind, erben zentrale Zugriffssteuerung, Linienführung und arbeitsbereichübergreifende Ermittlung und Zugriff. Weitere Informationen dazu finden Sie unter Verwalten des Lebenszyklus von Modellen in Unity Catalog.
Modellbereitstellung
Mosaic AI Model Serving bietet eine einheitliche Schnittstelle zum Bereitstellen, Steuern und Abfragen Ihrer bereitgestellten KI-Modelle. Jedes von Ihnen bereitgestellte Modell ist als REST-API verfügbar, die Sie in Ihre Web- oder Clientanwendung integrieren können. Mit Mosaic AI Model Serving können Sie eigene Modelle, Foundationmodelle oder Drittanbietermodelle bereitstellen, die außerhalb von Databricks gehostet werden. Weitere Informationen finden Sie unter Modellbereitstellung mit Azure Databricks.
Data Warehousing
Data Warehousing bezieht sich auf das Sammeln und Speichern von Daten aus mehreren Quellen, sodass schnell auf Geschäftserkenntnisse und Berichte zugegriffen werden kann. Databricks SQL ist die Sammlung von Diensten, die Data Warehouse-Funktionen und Leistung für Ihre vorhandenen Data Lakes bereitstellen. Siehe Was ist Data Warehousing in Azure Databricks?.
Abfrage
Eine Abfrage ist eine gültige SQL-Anweisung, mit der Sie mit Ihren Daten interagieren können. Sie können Abfragen mithilfe des in-plattformbasierten SQL-Editors erstellen oder eine Verbindung mittels SQL-Connector, Treiber oder API herstellen. Weitere Informationen zum Arbeiten mit Abfragen finden Sie unter Access und Verwalten gespeicherter Abfragen.
SQL-Warehouse
Eine Berechnungsressource, für die Sie SQL-Abfragen ausführen. Es gibt drei Arten von SQL-Lagerhäusern: Klassisch, Pro und Serverless. Azure Databricks empfiehlt die Verwendung serverloser Lagerhäuser, sofern verfügbar. Lesen Sie SQL-Lagertypen, um die verfügbaren Features für jeden Lagertyp zu vergleichen.
Abfrageverlauf
Eine Liste der ausgeführten Abfragen und deren Leistungsmerkmale. Mit dem Abfrageverlauf können Sie die Abfrageleistung überwachen, Engpässe erkennen und Abfragelaufzeiten optimieren. Weitere Informationen finden Sie unter Abfrageverlauf.
Visualisierung
Eine grafische Darstellung des Ergebnisses der Ausführung einer Abfrage. Siehe Visualisierungen in Databricks-Notebooks.
Dashboard
Eine Präsentation von Datenvisualisierungen und Kommentaren. Sie können Dashboards verwenden, um Berichte automatisch an alle Personen in Ihrem Azure Databricks-Konto zu senden. Verwenden Sie den Databricks-Assistenten, um Visualisierungen basierend auf natürlichen Eingabeaufforderungen zu erstellen. Siehe Dashboards. Sie können auch ein Dashboard aus einem Notizbuch erstellen. Weitere Informationen finden Sie unter Dashboards in Notebooks.
Weitere Informationen zu Legacy-Dashboards finden Sie unter Legacy-Dashboards.
Wichtig
- Databricks empfiehlt die Verwendung von KI/BI-Dashboards (ehemals Lakeview-Dashboards). Frühere Versionen von Dashboards, die zuvor als Databricks-SQL-Dashboards bezeichnet werden, werden jetzt als Legacy-Dashboards bezeichnet. Databricks rät davon ab, neue Legacy-Dashboards zu erstellen.
- Konvertieren Sie Legacy-Dashboards mithilfe des Migrationstools oder der REST-API. Anweisungen zur Verwendung des integrierten Migrationstools finden Sie unter Klonen eines Legacy-Dashboards in einem KI/BI-Dashboard. Tutorials zum Erstellen und Verwalten von Dashboards mithilfe der REST-API finden Sie unter Dashboard-Tutorials.