Datengovernance mit Unity Catalog
In diesem Leitfaden erfahren Sie, wie Sie Daten und den Zugriff auf KI-Objekte in Azure Databricks verwalten. Informationen zur Sicherheit von Azure Databricks finden Sie im Sicherheitsleitfaden. Azure Databricks bietet zentralisierte Governance für Daten und KI mit Unity Catalog und Delta Sharing.
Zentralisieren der Zugriffssteuerung mithilfe von Unity Catalog
Unity Catalog ist eine fein abgestimmte Governance-Lösung für Daten und KI in Databricks-Plattform. Es hilft, die Sicherheit und Verwaltung Ihrer Daten und KI-Ressourcen zu vereinfachen, indem es einen zentralen Ort zum Verwalten und Prüfen des Zugriffs auf Daten und KI-Ressourcen bietet.
In den meisten Konten ist Unity Catalog standardmäßig aktiviert, wenn Sie einen Arbeitsbereich erstellen. Weitere Informationen finden Sie unter Automatische Aktivierung von Unity Catalog.
Eine Erläuterung dazu, wie Sie Unity Catalog effektiv nutzen können, finden Sie in den Best Practices.
Nachverfolgen der Datenherkunft mit Unity Catalog
Sie können Unity Catalog verwenden, um die Datenherkunft von Runtime-Daten in jeder Sprache über Abfragen hinweg zu erfassen, die auf einem Azure Databricks-Cluster oder einem SQL-Warehouse ausgeführt werden. Die Datenherkunft wird bis auf Spaltenebene erfasst und umfasst Notebooks, Aufträge und Dashboards im Zusammenhang mit der Abfrage. Weitere Informationen finden Sie unter Erfassen und Anzeigen der Datenherkunft mit Unity Catalog.
Ermitteln von Daten mit dem Katalog-Explorer
Der Databricks-Katalog-Explorer bietet eine Benutzeroberfläche zum Untersuchen und Verwalten von Daten und KI-Ressourcen (einschließlich Schemas (Datenbanken), Tabellen, Volumes (nicht tabellarische Daten) und registrierten ML-Modellen) sowie Ressourcenberechtigungen, Datenbesitzer*innen, externen Speicherorten und Anmeldeinformationen. Sie können die Registerkarte Erkenntnisse im Katalog-Explorer verwenden, um die häufigsten letzten Abfragen und Benutzer*innen einer in Unity Catalog registrierten Tabelle anzuzeigen.
Daten mithilfe von Delta Sharing teilen
Delta Sharing ist ein offenes Protokoll, das von Databricks für die sichere Freigabe von Daten und KI-Ressourcen für andere Organisationen oder für andere Teams innerhalb Ihrer Organisation entwickelt wurde, unabhängig davon, welche Computingplattformen sie verwenden.
Konfigurieren der Überwachungsprotokollierung
Databricks bietet Zugriff auf Überwachungsprotokolle von Aktivitäten, die von Databricks-Benutzer*innen ausgeführt wurden, um Ihrem Unternehmen die Überwachung detaillierter Databricks-Verwendungsmuster zu ermöglichen.
In Unity Catalog können Sie mithilfe von Systemtabellen (Public Preview) ganz einfach auf die Betriebsdaten Ihres Kontos zugreifen und diese abfragen, einschließlich Überwachungsprotokolle, abrechenbarer Verbrauch und Datenherkunft.
Identität konfigurieren
Jede gute Data Governance-Geschichte beginnt mit einer starken Identitätsgrundlage. Informationen zum optimalen Konfigurieren der Identität in Azure Databricks finden Sie unter Bewährte Identitätsmethoden.
Legacy-Datengovernancelösungen
Azure Databricks bietet auch diese Legacy-Governance-Modelle:
Die Tabellenzugriffssteuerung ist ein Legacy-Datengovernancemodell, mit dem Sie den Zugriff auf Objekte, die vom integrierten Hive-Metastore Ihres Arbeitsbereichs verwaltet werden, programmgesteuert gewähren und widerrufen können. Databricks empfiehlt, Unity Catalog anstelle der Tabellenzugriffssteuerung zu verwenden. Unity Catalog vereinfacht die Sicherheit und Governance Ihrer Daten durch die Bereitstellung eines zentralen Ortes zum Verwalten und Überwachen des Datenzugriffs über mehrere Arbeitsbereiche in Ihrem Konto.
Passthrough für Anmeldeinformationen in Azure Data Lake Storage (Legacy) ist auch ein Legacy-Datengovernancefeature, mit dem Sie sich automatisch von einem Azure Databricks-Cluster aus bei Azure Storage authentifizieren können, indem Sie dieselbe Microsoft Entra ID-Identität wie zur Anmeldung bei Azure Databricks verwenden. Databricks empfiehlt, stattdessen Unity Catalog zu verwenden.