Bewährte Methoden für Data Governance und KI-Governance

Artikel
08/06/2024

Dieser Artikel behandelt bewährte Methoden für die Daten- und KI-Governance. Sie sind nach Architekturprinzipien organisiert, die in den folgenden Abschnitten aufgeführt sind.

1. Vereinheitlichen von Daten- und KI-Verwaltung

Einrichten eines Daten- und KI-Governanceprozesses

Daten- und KI-Governance ist die Verwaltung der Verfügbarkeit, Benutzerfreundlichkeit, Integrität und Sicherheit der Daten und KI-Ressourcen einer Organisation. Durch die Stärkung der Daten- und KI-Governance können Organisationen die Qualität der Ressourcen sicherstellen, die für genaue Analysen und Entscheidungsprozesse von entscheidender Bedeutung sind, helfen, neue Chancen zu identifizieren, die Kundenzufriedenheit zu verbessern und letztendlich den Umsatz zu steigern. Es hilft Organisationen dabei, Daten- und KI-Datenschutzbestimmungen einzuhalten und Sicherheitsmaßnahmen zu verbessern und das Risiko von Datenschutzverletzungen und Strafen zu verringern. Effektive Datengovernance beseitigt auch Redundanzen und optimiert die Datenverwaltung, was zu Kosteneinsparungen und erhöhter Betrieblicher Effizienz führt.

Eine Organisation möchte möglicherweise auswählen, welches Governancemodell für sie am besten geeignet ist:

Im zentralisierten Governancemodell sind Ihre Governanceadministratoren die Besitzer des Metastores und können den Besitz jedes Objekts übernehmen sowie Berechtigungen erteilen und widerrufen.
In einem verteilten Governancemodell ist der Katalog bzw. eine Reihe von Katalogen die Datendomäne. Der Besitzer dieses Katalogs kann alle Ressourcen erstellen und besitzen sowie die Governance innerhalb dieser Domäne verwalten. Die Besitzer einer beliebigen Domäne können unabhängig von den Besitzern anderer Domänen arbeiten.

Die Daten- und KI-Governance-Lösung Unity Catalog ist in die Databricks Data Intelligence Platform integriert. Sie unterstützt sowohl Governancemodelle als auch die nahtlose Verwaltung strukturierter und unstrukturierter Daten, ML-Modelle, Notizbücher, Dashboards und Dateien auf einer beliebigen Cloud oder Plattform. Die bewährten Methoden des Unity-Katalogs helfen bei der Implementierung von Daten und KI-Governance.

Verwalten von Metadaten für alle Daten- und KI-Ressourcen an einem zentralen Ort

Die Vorteile der Verwaltung von Metadaten für alle Ressourcen an einem Ort ähneln den Vorteilen der Aufrechterhaltung einer einzigen Quelle der Wahrheit für alle Ihre Daten. Dazu gehören reduzierte Datenredundanz, erhöhte Datenintegrität und die Beseitigung von Missverständnissen aufgrund verschiedener Definitionen oder Taxonomien. Es ist auch einfacher, globale Richtlinien, Standards und Regeln mit einer einzigen Quelle zu implementieren.

Führen Sie als bewährte Methode das Lakehouse in einem einzigen Konto mit einem Unity Catalog aus. Der Unity-Katalog kann Daten und Volumes (beliebige Dateien) sowie KI-Ressourcen wie Features und KI-Modelle verwalten. Der Container der obersten Ebene von Objekten im Unity Catalog ist ein Metastore. In diesem Container werden Datenressourcen (wie Tabellen und Ansichten) sowie die Berechtigungen gespeichert, die den Zugriff auf diese Ressourcen steuern. Verwenden Sie einen einzelnen Metaspeicher pro Cloudregion, und greifen Sie nicht auf Metastores in allen Regionen zu, um Latenzprobleme zu vermeiden.

Der Metastore stellt einen Namespace auf drei Ebenen bereit, um Daten, Volumes und KI-Ressourcen zu strukturieren:

Databricks empfiehlt die Verwendung von Katalogen, um eine Trennung in der Informationsarchitektur Ihrer Organisation bereitzustellen. Dies bedeutet häufig, dass Kataloge dem Umfang, dem Team oder der Geschäftseinheit der Softwareentwicklungsumgebung entsprechen können.

Nachverfolgen der Daten- und KI-Herkunft, um die Sichtbarkeit der Daten zu fördern

Datenherkunft ist ein leistungsfähiges Tool, das Datenverantwortlichen hilft, die Daten in ihren Organisationen transparenter und verständlicher zu machen. Datenherkunft beschreibt die Transformation und Verfeinerung von Daten von Quelle zu Erkenntnis. Sie umfasst die Erfassung aller relevanten Metadaten und Ereignisse, die den Daten im Lebenszyklus zugeordnet sind, einschließlich der Quelle des Datasets, welche anderen Datasets verwendet wurden, um sie zu erstellen, wer sie erstellt hat und wann, welche Transformationen durchgeführt wurden, welche anderen Datasets sie verwenden, und viele andere Ereignisse und Attribute.

Darüber hinaus, wenn Sie ein Modell anhand einer Tabelle in Unity Catalog trainieren, können Sie die Herkunft des Modells bis zu den vorgelagerten Datasets nachverfolgen, auf denen es trainiert und ausgewertet wurde.

Datenherkunft kann für viele datenbezogene Anwendungsfälle verwendet werden:

Compliance- und Überwachungsbereitschaft: Die Datenherkunft hilft Organisationen dabei, die Quellen von Tabellen und Feldern nachzuverfolgen. Dies ist wichtig für die Erfüllung der Anforderungen vieler Compliance-Vorschriften, z. B. der Datenschutz-Grundverordnung (DSGVO), des California Consumer Privacy Act (CCPA), des Health Insurance Portability and Accountability Act (HIPAA), des Baseler Bankenaufsichtsausschusses (BCBS) 239 und des Sarbanes-Oxley Act (SOX).
Auswirkungsanalyse/Change Management: Daten durchlaufen mehrere Transformationen von der Quelle zur endgültigen geschäftsbereiten Tabelle. Das Verständnis der potenziellen Auswirkungen von Datenänderungen auf nachgeschaltete Benutzer wird aus Risikomanagementperspektive wichtig. Diese Auswirkung kann mithilfe der Datenherkunft, die vom Unity Catalog erfasst wird, leicht bestimmt werden.
Datenqualitätssicherung: Das Verständnis, woher ein Datensatz stammt und welche Transformationen vorgenommen wurden, bietet Datenwissenschaftlern und Analysten einen viel besseren Kontext und ermöglicht es ihnen, bessere und genauere Erkenntnisse zu gewinnen.
Debuggen und Diagnose: Im Falle eines unerwarteten Ergebnisses hilft die Datenherkunft den Datenteams bei der Ursachenanalyse, indem sie den Fehler zu seiner Quelle zurückverfolgt. Dadurch wird die Problembehandlungszeit erheblich reduziert.

Unity Catalog erfasst die Runtime-Datenherkunft über Abfragen, die auf Azure Databricks ausgeführt werden, sowie die Modellherkunft. Datenherkunft wird für alle Sprachen unterstützt und wird bis auf die Spaltenebene herunter erfasst. Herkunftsdaten umfassen Notebooks, Aufträge und Dashboards, die zur Abfrage gehören. Die Herkunft kann im Katalog-Explorer nahezu in Echtzeit visualisiert und mit der Databricks Datenherkunfts-REST-API abgerufen werden.

Hinzufügen konsistenter Beschreibungen zu Ihren Metadaten

Beschreibungen stellen einen wesentlichen Kontext für Daten bereit. Sie helfen Benutzern, den Zweck und den Inhalt von Datentabellen und -spalten zu verstehen. Diese Klarheit ermöglicht es ihnen, die benötigten Daten einfacher zu erkennen, zu identifizieren und zu filtern, was für eine effektive Datenanalyse und Entscheidungsfindung von entscheidender Bedeutung ist. Beschreibungen können Datenempfindlichkeits- und Complianceinformationen enthalten. Dies hilft Organisationen dabei, rechtliche und behördliche Anforderungen für Datenschutz und Sicherheit zu erfüllen. Beschreibungen sollten auch Informationen zur Quelle, Genauigkeit und Relevanz von Daten enthalten. Dadurch wird die Datenintegrität sichergestellt und die Zusammenarbeit in teamsübergreifend verbessert.

Zwei Hauptfeatures im Unity Catalog unterstützen die Beschreibung von Tabellen und Spalten. Der Unity Catalog ermöglicht

Hinzufügen von Kommentaren zu Tabellen und Spalten in Form von Kommentaren.

Sie können auch einen KI-generierten Kommentar für jede von Unity Catalog verwaltete Tabelle oder Tabellenspalte hinzufügen, um den Prozess zu beschleunigen. KI-Modelle sind jedoch nicht immer genau, und Kommentare müssen vor dem Speichern überprüft werden. Databricks empfiehlt dringend eine menschliche Überprüfung von KI-generierten Kommentaren, um Ungenauigkeiten zu erkennen.
Hinzufügen von Tags zu jedem sicherungsfähigen im Unity-Katalog. Tags sind Attribute mit Schlüsseln und optionalen Werten, die Sie auf verschiedene sicherungsfähige Objekte in Unity Catalog anwenden können. Tagging ist nützlich für die Organisation und Kategorisierung verschiedener sicherungsfähiger Objekte innerhalb eines Metastores. Durch die Verwendung von Tags können Sie auch Ihre Datenressourcen einfacher durchsuchen und ermitteln.

Einfache Datenermittlung für Datenkonsumenten zulassen

Einfache Datenerkennung, damit Datenwissenschaftler, Datenanalysten und Dateningenieure relevante Daten schnell erkennen und referenzieren und die Time-to-Value verkürzen können.

Der Databricks Catalog-Explorer bietet eine Benutzeroberfläche zum Untersuchen und Verwalten von Schemas (Datenbanken), Tabellen, Berechtigungen, Datenbesitzer*innen, externen Speicherorten und Anmeldeinformationen. Zusätzlich können Sie die Registerkarte „Erkenntnisse“ im Catalog Explorer verwenden, um die häufigsten letzten Abfragen und Benutzer*innen einer in Unity Catalog registrierten Tabelle anzuzeigen.

Steuern von KI-Ressourcen zusammen mit Daten

Die Beziehung zwischen Datengovernance und künstlicher Intelligenz (KI) ist für den Erfolg entscheidend geworden. Wie Organisationen Daten verwalten, sichern und verwenden, wirkt sich direkt auf die Ergebnisse und Überlegungen von KI-Implementierungen aus: Sie können keine KI ohne Qualitätsdaten haben und ohne Datengovernance keine Qualitätsdaten haben.

Die Steuerung von Daten und KI verbessert die KI-Leistung, indem ein nahtloser Zugriff auf qualitativ hochwertige, aktuelle Daten gewährleistet wird, was zu einer verbesserten Genauigkeit und einer besseren Entscheidungsfindung führt. Das Aufteilen von Silos erhöht die Effizienz, indem bessere Zusammenarbeits- und Optimierungsworkflows ermöglicht werden, was zu einer höheren Produktivität und geringeren Kosten führt.

Verbesserte Datensicherheit ist ein weiterer Vorteil, da ein einheitlicher Governance-Ansatz konsistente Verfahren zur Datenverarbeitung festlegt, Sicherheitslücken reduziert und die Fähigkeit einer Organisation zum Schutz vertraulicher Informationen verbessert. Die Einhaltung von Datenschutzbestimmungen ist einfacher zu verwalten, wenn Daten und KI-Governance integriert sind, da datenverarbeitungs- und KI-Prozesse an regulatorische Anforderungen angepasst werden.

Insgesamt fördert ein einheitlicher Governance-Ansatz vertrauen die Beteiligten und sorgt für Transparenz bei KI-Entscheidungsprozessen, indem klare Richtlinien und Verfahren für Daten und KI festgelegt werden.

In der Databricks Data Intelligence Platform ist der Unity-Katalog die zentrale Komponente für die Steuerung von Daten- und KI-Ressourcen:

Feature im Unity Catalog

In Unity Catalog aktivierten Arbeitsbereichen können Datenwissenschaftler Featuretabellen im Unity Catalog erstellen. Die Featuretabellen sind Delta-Tabellen oder Delta-Livetabelle, die von Unity Catalog verwaltet werden.
Modelle in Unity Catalog

Modelle in Unity Catalog erweitern die Vorteile von Unity Catalog auf ML-Modelle, einschließlich zentralisierter Zugriffssteuerung, Überwachung, Herkunft und arbeitsbereichübergreifende Modellsuche. Zu den wichtigsten Features von Modellen im Unity Catalog gehören Governance für Modelle, chronologische Modelllinien, Modellversionsverwaltung und Modellimplementierung über Aliase.

2. Vereinheitlichen von Daten- und KI-Sicherheit

Zentrale Zugriffssteuerung für alle Daten und KI-Ressourcen

Die zentrale Zugriffssteuerung für alle Datenressourcen ist wichtig, da sie die Sicherheit und Governance Ihrer Daten und KI-Ressourcen vereinfacht, indem ein zentraler Ort zum Verwalten und Überwachen des Zugriffs auf diese Ressourcen bereitgestellt wird. Dieser Ansatz trägt dazu bei, den Zugriff auf Daten und KI-Objekte effizienter zu verwalten, um sicherzustellen, dass die betrieblichen Anforderungen zur Trennung der Pflicht durchgesetzt werden, was für die Einhaltung gesetzlicher Vorschriften und der Risikovermeidung von entscheidender Bedeutung ist.

Die Databricks Data Intelligence-Plattform bietet Methoden zur Datenzugriffssteuerung, d. h. Mechanismen, die beschreiben, auf welche Daten Gruppen oder Einzelpersonen zugreifen können. Hierbei handelt es sich um Richtlinienanweisungen, die extrem präzise und spezifisch sein können, bis hin zur Definition jedes Datensatzes, auf den jeder Einzelne Zugriff hat. Sie können aber auch sehr aussagekräftig und weit gefasst sein, wie z. B. dass alle Finanznutzer alle Finanzdaten sehen können.

Der Unity Catalog zentralisiert Zugriffssteuerungen für alle unterstützten sicherungsfähigen Objekte wie Tabellen, Dateien, Modelle und vieles mehr. Jedes sicherungsfähige Objekt in Unity Catalog verfügt über eine*n Besitzer*in. Der Objektbesitzer verfügt über alle Berechtigungen für das Objekt sowie über die Berechtigung, anderen Prinzipalen Berechtigungen für das sicherungsfähige Objekt zu erteilen. Unity Catalog ermöglicht Ihnen das Verwalten von Berechtigungen und das Konfigurieren der Zugriffssteuerung mithilfe von SQL DDL-Anweisungen.

Der Unity-Katalog verwendet Zeilenfilter und Spaltenmasken für die feinkörnige Zugriffssteuerung. Mit Zeilenfiltern können Sie einen Filter auf eine Tabelle anwenden, sodass nachfolgende Abfragen nur Zeilen zurückgeben, für die das Filterprädikat „wahr“ ergibt. Mit Spaltenformaten können Sie eine Maskierungsfunktion auf eine Tabellenspalte anwenden. Die Maskierungsfunktion wird zur Abfragelaufzeit ausgewertet, wobei jeder Verweis der Zielspalte durch die Ergebnisse der Maskierungsfunktion ersetzt wird.

Weitere Informationen finden Sie unter Sicherheit, Compliance und Datenschutz – Verwalten von Identität und Zugriff mit den geringsten Berechtigungen.

Konfigurieren der Überwachungsprotokollierung

Die Überwachungsprotokollierung ist wichtig, da sie ein detailliertes Konto der Systemaktivitäten (Benutzeraktionen, Änderungen an Einstellungen usw.) bereitstellt, die sich auf die Integrität des Systems auswirken können. Während Standardsystemprotokolle entwickelt wurden, um Entwicklern bei der Problembehandlung zu helfen, stellen Überwachungsprotokolle einen historischen Aktivitätsverlauf für Compliance- und andere Geschäftsrichtlinienerzwingungszwecke bereit. Durch die Aufrechterhaltung robuster Überwachungsprotokolle können Sie die Bereitschaft vor Bedrohungen, Verstößen, Betrug und anderen Systemproblemen erkennen und sicherstellen.

Databricks bietet Zugriff auf Überwachungsprotokolle von Aktivitäten, die von Databricks-Benutzer*innen ausgeführt wurden, um Ihrer Organisation die Überwachung detaillierter Databricks-Verwendungsmuster zu ermöglichen. Es gibt zwei Arten von Protokollen: Überwachungsprotokolle auf Arbeitsbereichsebene mit Ereignissen auf Arbeitsbereichsebene und Überwachungsprotokolle auf Kontoebene mit Ereignissen auf Kontoebene.

Ausführliche Überwachungsprotokolle sind zusätzliche Überwachungsprotokolle, die aufgezeichnet werden, wenn eine Abfrage oder ein Befehl in Ihrem Arbeitsbereich ausgeführt wird.

Überwachen von Datenplattformereignissen

Die Überwachungsprotokollierung ist wichtig, da sie ein detailliertes Konto der Systemaktivitäten bereitstellt. Die Data Intelligence Platform verfügt über Überwachungsprotokolle für den Metadatenzugriff (daher Datenzugriff) und für die Datenfreigabe:

Unity Catalog erfasst ein Überwachungsprotokoll von Aktionen, die für den Metastore ausgeführt werden. Dies ermöglicht Administratoren den Zugriff auf detaillierte Informationen darüber, wer auf ein bestimmtes Dataset zugegriffen und welche Aktionen er durchgeführt hat.
Für die sichere Freigabe mit Delta Sharing bietet Azure Databricks Überwachungsprotokolle zum Überwachen von Delta-Freigabeereignissen, einschließlich:
- Wenn jemand eine Freigabe oder einen Empfänger erstellt, ändert, aktualisiert oder löscht.
- Ein Empfänger greift auf einen Aktivierungslink zu und lädt die Anmeldeinformationen herunter.
- Ein Empfänger greift auf Freigaben oder Daten in freigegebenen Tabellen zu.
- Die Anmeldeinformationen eines Empfängers werden rotiert oder laufen ab.

3. Festlegen von Datenqualitätsstandards

Die Databricks Data Intelligence-Plattform bietet ein stabiles Datenqualitätsmanagement mit integrierten Qualitätskontrollen, Tests, Überwachung und Durchsetzung, um sicherzustellen, dass genaue und nützliche Daten für nachgelagerte BI-, Analyse- und Machine Learning-Workloads verfügbar sind.

Implementierungsdetails sind verfügbar in Zuverlässigkeit – Datenqualität verwalten.

Definieren klarer Datenqualitätsstandards

Die Definition eindeutiger und umsetzbarer Datenqualitätsstandards ist von entscheidender Bedeutung, da sie dabei hilft, sicherzustellen, dass Daten, die für Analyse, Berichterstellung und Entscheidungsfindung verwendet werden, zuverlässig und vertrauenswürdig sind. Durch die Dokumentation dieser Standards wird sichergestellt, dass sie eingehalten werden. Die Datenqualitätsstandards sollten auf den spezifischen Anforderungen des Unternehmens basieren und die Dimensionen der Datenqualität wie Genauigkeit, Vollständigkeit, Konsistenz, Zeitachsen und Zuverlässigkeit berücksichtigen:

Genauigkeit: Stellen Sie sicher, dass Daten echte Werte korrekt widerspiegeln.
Vollständigkeit: Alle erforderlichen Daten sollten erfasst werden und es sollten keine kritischen Daten fehlen.
Konsistenz: Daten in allen Systemen sollten konsistent sein und nicht anderen Daten widersprechen.
Zeitachsen: Daten sollten zeitnah aktualisiert und verfügbar sein.
Zuverlässigkeit: Daten sollten auf eine Weise abgerufen und verarbeitet werden, die ihre Zuverlässigkeit gewährleistet.

Verwenden von Datenqualitätstools für Profilerstellung, Reinigung, Überprüfung und Überwachung von Daten

Nutzen Sie Datenqualitätstools für Profilerstellung, Reinigung, Überprüfung und Überwachung von Daten. Diese Tools helfen bei der Automatisierung der Prozesse zum Erkennen und Beheben von Problemen mit der Datenqualität, die für die Skalierung von Datenqualitätsinitiativen in großen Datasets wichtig sind, die typisch für Data Lake sind

Für Teams, die DLT verwenden, können Sie Erwartungen verwenden, um Datenqualitätseinschränkungen für den Inhalt eines Datasets zu definieren. Mithilfe von Erwartungen können Sie sicherstellen, dass die in den Tabellen eingehenden Daten die Anforderungen an die Datenqualität erfüllen, und Sie erhalten Einblicke in die Datenqualität für jedes Pipeline-Update.

Implementieren und Erzwingen standardisierter Datenformate und -definitionen

Standardisierte Datenformate und -definitionen helfen dabei, eine konsistente Darstellung von Daten in allen Systemen zu erzielen, um die Datenintegration und -analyse zu erleichtern, Kosten zu senken und die Entscheidungsfindung zu verbessern, indem die Kommunikation und Zusammenarbeit in teams- und abteilungsübergreifend verbessert wird. Es hilft auch, eine Struktur für die Erstellung und Pflege der Datenqualität bereitzustellen.

Entwickeln und erzwingen Sie ein Standarddatenwörterbuch, das Definitionen, Formate und akzeptable Werte für alle Datenelemente enthält, die in der gesamten Organisation verwendet werden.

Verwenden Sie einheitliche Benennungskonventionen, Datumsformate und Maßeinheiten in allen Datenbanken und Anwendungen, um Diskrepanzen und Verwirrung zu vermeiden.

Freigeben über