Freigeben über


Bewährte Methoden für Interoperabilität und Benutzerfreundlichkeit

Dieser Artikel behandelt bewährte Methoden für die Interoperabilität und Benutzerfreundlichkeit. Sie sind nach Architekturprinzipien organisiert, die in den folgenden Abschnitten aufgeführt sind.

1. Definieren von Standards für die Integration

Verwenden von Standard- und wiederverwendbaren Integrationsmustern für die externe Integration

Integrationsstandards sind wichtig, da sie Richtlinien für die Darstellung, Austausch und Verarbeitung von Daten über verschiedene Systeme und Anwendungen hinweg bereitstellen. Diese Standards tragen dazu bei, dass Daten über verschiedene Quellen und Ziele hinweg kompatibel, qualitativ hochwertige und interoperable Daten sind.

Das Databricks Lakehouse verfügt über eine umfassende REST-API, mit der Sie nahezu alle Aspekte der Plattform programmgesteuert verwalten können. Der REST-API-Server wird auf der Steuerungsebene ausgeführt und bietet einen einheitlichen Endpunkt zum Verwalten der Azure Databricks-Plattform.

Die REST-API bietet die niedrigste Integrationsebene, die immer verwendet werden kann. Die bevorzugte Methode zur Integration in Azure Databricks ist jedoch die Verwendung von Abstraktionen auf höherer Ebene wie z. B. Databricks SDKs oder CLI-Tools. CLI-Tools sind shellbasiert und ermöglichen eine einfache Integration der Databricks-Plattform in CI/CD- und MLOps-Workflows.

Verwenden von optimierten Verbindern zum Erfassen von Datenquellen in das Seehaus

Azure Databricks bietet eine Vielzahl von Möglichkeiten zum Erfassen von Daten in Delta Lake.

  • Databricks bietet optimierte Connectors für Stream-Messaging-Dienste wie Apache Kafka für die Nah-Echtzeit-Datenerfassung von Daten.

  • Databricks bietet integrierte Integrationen in viele cloudnative Datensysteme sowie erweiterbare JDBC-Unterstützung zur Verbindungsherstellung mit anderen Datensystemen.

  • Eine Option zum Integrieren von Datenquellen ohne ETL ist Lakehouse Federation. Lakehouse Federation ist die Abfrageverbundplattform für Databricks. Der Begriff Abfrageverbund beschreibt eine Sammlung von Features, mit deren Hilfe Benutzer und Systeme Abfragen für mehrere isolierte Datenquellen ausführen können, ohne alle Daten in ein einheitliches System migrieren zu müssen. Databricks verwendet zum Verwalten des Abfrageverbunds Unity Catalog. Die Tools für Datengovernance und Datenherkunft von Unity Catalog stellen sicher, dass der Datenzugriff für alle Verbundabfragen verwaltet und überwacht wird, die von den Benutzern in Ihren Databricks-Arbeitsbereichen durchgeführt werden.

    Hinweis

    Jede Abfrage in der Databricks-Plattform, die eine Lakehouse-Verbundquelle verwendet, wird an diese Quelle gesendet. Stellen Sie sicher, dass das Quellsystem die Last verarbeiten kann. Beachten Sie außerdem, dass für jede Abfrage Ausgangskosten anfallen, wenn das Quellsystem in einer anderen Cloudregion oder Cloud bereitgestellt wird.

    Ziehen Sie das Entladen des Zugriffs auf zugrunde liegende Datenbanken über materialisierte Ansichten in Betracht, um hohe/gleichzeitige Lasten für betriebsfähige Datenbanken zu vermeiden und die Kosten für den Ausgang zu reduzieren.

Verwenden von zertifizierten Partnertools

Organisationen haben unterschiedliche Anforderungen, und kein einzelnes Tool kann sie alle erfüllen. Partner Connect ermöglicht es Ihnen, Angebote unserer Partner zu erkunden und einfach zu integrieren, die alle Aspekte von Lakehouse abdecken: Datenerfassung, Vorbereitung und Transformation, BI und Visualisierung, maschinelles Lernen, Datenqualität und vieles mehr. Mit Partner Connect können Sie Testkonten bei ausgewählten Azure Databricks-Technologiepartnern erstellen und Ihren Azure Databricks-Arbeitsbereich über die Azure Databricks-Benutzeroberfläche mit Partnerlösungen verbinden. Probieren Sie Partnerlösungen mit Ihren Daten im Databricks Lakehouse aus und übernehmen Sie dann die Lösungen, die Ihren Geschäftsanforderungen am besten entsprechen.

Verringern der Komplexität von Data Engineering-Pipelines

Investitionen in die Reduzierung der Komplexität von Data Engineering-Pipelines ermöglichen Skalierbarkeit, Flexibilität und Flexibilität, schneller expandieren und innovationen zu können. Vereinfachte Pipelines erleichtern die Verwaltung und Anpassung aller betrieblichen Anforderungen einer Datentechnikpipeline: Aufgaben-Orchestrierung, Clustermanagement, Überwachung, Datenqualität und Fehlerbehandlung.

Delta Live Tables ist ein Framework für die Erstellung zuverlässiger, verwaltbarer und testbarer Datenverarbeitungspipelines. Sie müssen lediglich die Transformationen definieren, die Sie für Ihre Daten durchführen möchten. Delta Live Tables kümmert sich um Aufgabenorchestrierung, Clusterverwaltung, Überwachung, Datenqualität und Fehlerbehandlung. Weitere Informationen finden Sie unter Was sind Delta Live-Tabellen?.

Auto Loader verarbeitet neue Datendateien inkrementell und effizient, sobald sie im Cloudspeicher eingehen. Das Tool kann Datendateien zuverlässig aus dem Cloudspeicher lesen. Ein wichtig Aspekt sowohl von Delta Live Tables als auch von Auto Loader deren deklarative Natur: Ohne diese Tools müssen Sie komplexe Pipelines erstellen, die verschiedene Clouddienste wie einen Benachrichtigungs- oder einen Warteschlangendienst integrieren, um Clouddateien basierend auf Ereignissen zuverlässig zu lesen und die Kombination von Batch- und Streamingquellen sicher zu ermöglichen.

Auto Loader und Delta Live Tables reduzieren Systemabhängigkeiten und Komplexität und verbessern die Interoperabilität mit dem Cloudspeicher und zwischen verschiedenen Paradigmen wie Batch und Streaming erheblich. Als Nebeneffekt erhöht die Einfachheit der Pipelines die Nutzbarkeit der Plattform.

Verwenden von Infrastructure as Code (IaC) für Bereitstellungen und Wartung

HashiCorp Terraform ist ein beliebtes Open-Source-Tool zum Erstellen von sicherer und vorhersagbarer Cloudinfrastruktur für mehrere Cloudanbieter. Weitere Informationen finden Sie unter Operational-Excellence: Verwenden von Infrastructure-as-Code für Bereitstellungen und Wartung

2. Verwenden von offenen Schnittstellen und offenen Datenformaten

Verwenden von offenen Datenformaten

Die Verwendung eines offenen Datenformats bedeutet, dass es keine Einschränkungen für die Verwendung gibt. Dies ist wichtig, da sie Barrieren für den Zugriff auf und die Verwendung der Daten für die Analyse und das Fördern von Geschäftseinblicken entfernt. Offene Formate, z. B. solche, die auf Apache Spark basieren, fügen auch Features hinzu, die die Leistung mit Unterstützung für ACID-Transaktionen, einheitliches Streaming und Batchdatenverarbeitung steigern. Darüber hinaus ist Open Source communitygesteuert, was bedeutet, dass die Community ständig daran arbeitet, vorhandene Features zu verbessern und neue hinzuzufügen, wodurch es Benutzern einfacher wird, ihre Projekte optimal zu nutzen.

Das primäre Datenformat, das in der Data Intelligence Platform verwendet wird, ist Delta Lake, ein vollständig offenes Datenformat, das viele Vorteile bietet, von Zuverlässigkeitsfeatures bis hin zu Leistungsverbesserungen, siehe Verwenden eines Datenformats, das ACID-Transaktionen und bewährte Methoden zur Leistungseffizienz unterstützt.

Aufgrund seiner offenen Natur kommt delta Lake mit einem großen Ökosystem. Dutzende Tools und Anwendungen von Drittanbietern unterstützen Delta Lake.

Um die Interoperabilität weiter zu verbessern, ermöglicht Ihnen das Delta Universal Format (UniForm) das Lesen von Delta-Tabellen mit Iceberg-Leseclients. UniForm generiert automatisch asynchron Iceberg-Metadaten, ohne die Daten neu zu schreiben, sodass Iceberg-Clients Delta-Tabellen lesen können, als wären sie Iceberg-Tabellen. Eine einzelne Kopie der Datendateien dient beiden Formaten.

Sichere Daten- und KI-Freigabe für alle Datenressourcen aktivieren

Das Freigeben von Daten und KI-Ressourcen kann zu einer besseren Zusammenarbeit und Entscheidungsfindung führen. Beim Teilen von Daten ist es jedoch wichtig, die Kontrolle zu behalten, Ihre Daten zu schützen und die Einhaltung relevanter Datenfreigabegesetze und -vorschriften sicherzustellen.

Delta Sharing ist ein von Databricks entwickeltes offenes Protokoll für eine sichere Datenfreigabe für andere Organisationen, unabhängig von den verwendeten Computingplattformen. Sie können die offene Freigabe von Delta Sharing verwenden, wenn Sie Daten für Benutzer außerhalb Ihres Databricks-Arbeitsbereichs sicher freigeben möchten – unabhängig davon, ob diese Benutzer Databricks verwenden oder nicht. Wenn Sie Daten für Benutzer freigeben möchten, die über einen Databricks-Arbeitsbereich verfügen, der für Unity-Katalog aktiviert ist, können Sie die Delta-Freigabe von Databricks-to-Databricks verwenden.

In beiden Fällen können Sie Tabellen, Ansichten, Volumes, Modelle und Notizbücher freigeben.

  • Verwenden des offenen Delta Sharing-Protokolls zum Freigeben von Daten an Partner.

    Delta Sharing bietet eine offene Lösung zum sicheren Teilen von Livedaten von Ihrem Lakehouse auf jede Computerplattform. Empfänger müssen sich nicht auf der Databricks-Plattform, in derselben Cloud oder überhaupt in einer Cloud befinden. Die Delta-Freigabe ist nativ in Unity Catalog integriert, sodass Organisationen freigegebene Daten und KI-Ressourcen im gesamten Unternehmen zentral verwalten und überwachen und Daten- und KI-Ressourcen sicher freigeben können, während sie Sicherheits- und Complianceanforderungen erfüllen.

    Datenanbieter können Livedaten und KI-Modelle freigeben, von denen aus sie in der Datenplattform gespeichert werden, ohne sie replizieren oder in ein anderes System verschieben zu müssen. Dieser Ansatz reduziert die Betriebskosten der Daten- und KI-Freigabe, da Datenanbieter Daten nicht mehrmals in Clouds, Regionen oder Datenplattformen auf jeden ihrer Datenkunden replizieren müssen.

  • Verwenden der Databricks-zu-Databricks-Delta-Freigabe zwischen Databricks-Benutzern.

    Wenn Sie Daten für Benutzer freigeben möchten, die keinen Zugriff auf Ihren Unity Catalog-Metastore haben, können Sie die Databricks-to-Databricks-Freigabe von Delta Sharing nutzen, vorausgesetzt, die Empfänger können auf einen Databricks-Arbeitsbereich zugreifen, der für Unity Catalog aktiviert ist. Mit der Databricks-zu-Databricks-Freigabe können Sie Daten für Benutzer in anderen Databricks-Konten über Cloudregionen und Cloudanbieter hinweg freigeben. Es ist eine großartige Möglichkeit, Daten in verschiedenen Unity Catalog-Metastores in Ihrem eigenen Databricks-Konto sicher freizugeben.

Verwenden offener Standards für Ihre ML-Lebenszyklusverwaltung

Wie die Verwendung eines Open Source-Datenformats hat die Verwendung offener Standards für Ihre KI-Workflows ähnliche Vorteile in Bezug auf Flexibilität, Flexibilität, Kosten und Sicherheit.

MLflow ist eine Open Source-Plattform für die Verwaltung des ML- und AI-Lebenszyklus. Databricks bietet eine vollständig verwaltete und gehostete Version von MLflow, die in Features für Unternehmenssicherheit, Hochverfügbarkeit und weitere Azure Databricks-Arbeitsbereichsfeatures wie die Verwaltung von Experimenten und deren Durchführung und die Erfassung von Notebookrevisionen integriert ist.

Die primären Komponenten sind die Experimentierverfolgung zum automatischen Protokollieren und Nachverfolgen von ML- und Deep Learning-Modellen, Modellen als Standardformat für das Verpacken von Machine Learning-Modellen, einer Modellregistrierung, die in Unity Catalog integriert ist, und das skalierbare Modell auf Unternehmensniveau.

3. Vereinfachen der Implementierung neuer Anwendungsfälle

Bereitstellen von Self-Service-Funktionen auf der gesamten Plattform

Es gibt mehrere Vorteile einer Plattform, auf der Benutzer unabhängig von ihren Anforderungen die Tools und Funktionen verwenden können. Wenn Sie in die Erstellung einer Self-Service-Plattform investieren, können Sie einfacher skalieren, um mehr Benutzer zu bedienen und die Effizienz zu steigern, indem sie die Notwendigkeit der menschlichen Einbindung minimieren, Um Benutzer bereitzustellen, Probleme zu lösen und Zugriffsanforderungen zu verarbeiten.

Die Databricks Data Intelligence-Plattform verfügt über alle Funktionen, die für eine Self-Service-Erfahrung erforderlich sind. Obwohl es einen obligatorischen Genehmigungsschritt geben kann, besteht die bewährte Methode darin, die Einrichtung vollständig zu automatisieren, wenn eine Geschäftseinheit Zugriff auf das Lakehouse anfordert. Automatisches Bereitstellen der neuen Umgebung, Synchronisieren von Benutzern und Verwenden des einmaligen Anmeldens für die Authentifizierung, Bereitstellen der Zugriffssteuerung auf allgemeine Daten und separate Objektspeicher für eigene Daten usw. Zusammen mit einem zentralen Datenkatalog semantisch konsistenter und geschäftsfähiger Datasets können neue Geschäftseinheiten schnell und sicher auf Lakehouse-Funktionen und die benötigten Daten zugreifen.

Verwenden von serverlosem Computing

Bei serverlosem Compute auf der Azure Databricks-Plattform wird die Computeebene im Databricks-Konto des Kunden ausgeführt. Cloudadministratoren müssen keine komplexen Cloudumgebungen mehr verwalten, die Kontingente anpassen, Netzwerkressourcen erstellen und verwalten und eine Verbindung mit Abrechnungsquellen herstellen müssen. Benutzer profitieren von fast null Clusterstartlatenz und verbesserter Abfragekoncurrency.

Verwenden vordefinierter Computevorlagen

Vordefinierte Vorlagen helfen dabei, zu steuern, wie Computeressourcen von Benutzern verwendet oder erstellt werden können: Beschränken Sie die Erstellung von Benutzerclustern auf vorgeschriebene Einstellungen oder eine bestimmte Zahl, vereinfachen Sie die Benutzeroberfläche oder steuern Sie Kosten, indem Sie die maximalen Kosten pro Cluster begrenzen.

Die Data Intelligence Platform führt dies auf zwei Arten aus:

  • Stellen Sie freigegebene Cluster als unmittelbare Umgebungen für Benutzer bereit. Verwenden Sie auf diesen Clustern die automatische Skalierung für eine mimimale Anzahl an Knoten, um hohe Leerlaufkosten zu vermeiden.
  • Verwenden Sie für eine standardisierte Umgebung Computerichtlinien, um die Clustergröße oder -features einzuschränken oder T-Shirt-Größencluster (S, M, L) zu definieren.

Verwenden von KI-Funktionen zur Steigerung der Produktivität

Zusätzlich zur Steigerung der Produktivität können KI-Tools auch dazu beitragen, Muster in Fehlern zu identifizieren und zusätzliche Erkenntnisse basierend auf der Eingabe bereitzustellen. Insgesamt kann das Einbinden dieser Tools in den Entwicklungsprozess Fehler erheblich reduzieren und die Entscheidungsfindung erleichtern – was zu einer schnelleren Freigabe führt.

Databricks IQ, das KI-gestützte Wissensmodul, ist das Herzstück der Data Intelligence Platform. Es nutzt Unity Catalogmetadaten, um Ihre Tabellen, Spalten, Beschreibungen und beliebten Datenressourcen in Ihrer Organisation zu verstehen, um personalisierte Antworten zu liefern. Es ermöglicht mehrere Features, die die Produktivität beim Arbeiten mit der Plattform verbessern, z. B.:

  • Mit dem Databricks-Assistenten können Sie Daten über eine Dialogschnittstelle abfragen und so Ihre Produktivität in Databricks steigern. Beschreiben Sie Ihre Aufgabe in Englisch, und lassen Sie den Assistenten SQL-Abfragen generieren, komplexen Code erläutern und Fehler automatisch beheben.
  • KI-generierte Kommentare für jede von Unity Catalog verwaltete Tabellen- oder Tabellenspalte beschleunigen den Metadatenverwaltungsprozess. KI-Modelle sind jedoch nicht immer genau, und Kommentare müssen vor dem Speichern überprüft werden. Databricks empfiehlt dringend eine menschliche Überprüfung von KI-generierten Kommentaren, um Ungenauigkeiten zu erkennen.

4. Sicherstellen von Datenkonsistenz und Benutzerfreundlichkeit

Anbieten wiederverwendbarer Daten als Produkte, denen das Unternehmen vertrauen kann

Organisationen, die KI- und datengesteuert werden möchten, müssen ihre internen Teams häufig mit qualitativ hochwertigen, vertrauenswürdigen Daten versorgen. Ein Ansatz zur Priorisierung von Qualität und Nutzbarkeit besteht darin, das Produktdenken auf Ihre veröffentlichten Datenressourcen anzuwenden, indem sie definierte "Datenprodukte" erstellen. Durch den Aufbau solcher Datenprodukte wird sichergestellt, dass Organisationen Standards und eine vertrauenswürdige Grundlage der Geschäftswahrung für ihre Daten- und KI-Ziele festlegen. Datenprodukte liefern letztendlich Wert, wenn Benutzer und Anwendungen die richtigen Daten zur richtigen Zeit mit der richtigen Qualität im richtigen Format haben. Obwohl dieser Wert traditionell in Form von effizienteren Vorgängen durch niedrigere Kosten, schnellere Prozesse und reduzierte Risiken realisiert wurde, können moderne Datenprodukte auch den Weg für neue Mehrwertangebote und Datenfreigabemöglichkeiten innerhalb des Branchen- oder Partnerökosystems einer Organisation ebnen.

Lesen Sie den Blogbeitrag Mit Databricks hochwertige und vertrauenswürdige Datenprodukte erstellen.

Veröffentlichen von semantisch konsistenten Datenprodukten im gesamten Unternehmen

Ein Data Lake enthält in der Regel Daten aus mehreren Quellsystemen. Diese Systeme können unterschiedliche Namen für dasselbe Konzept haben (z. B. Kunden - oder Kontokonto) oder denselben Bezeichner verwenden, um auf verschiedene Konzepte zu verweisen. Damit Geschäftsbenutzer diese Datensätze einfach und sinnvoll kombinieren können, müssen die Daten über alle Quellen hinweg homogen gestaltet werden, um semantisch konsistent zu sein. Darüber hinaus müssen interne Geschäftsregeln ordnungsgemäß angewendet werden, damit einige Daten für die Analyse werthaltig sind, z. B. die Realisierung des Umsatzes. Um sicherzustellen, dass alle Benutzer die korrekt interpretierten Daten verwenden, müssen Datasets unter Beachtung dieser Regeln in Unity Catalog zur Verfügung gestellt und veröffentlicht werden. Der Zugriff auf Quelldaten muss auf Teams beschränkt werden, die sie korrekt verwenden können.

Bereitstellen eines zentralen Katalogs zur Ermittlung und Herkunft

Ein zentraler Katalog für Ermittlung und Herkunft hilft Datenkunden beim Zugriff auf Daten aus mehreren Quellen im gesamten Unternehmen, wodurch der Betriebsaufwand für das zentrale Governanceteam reduziert wird.

In Unity Catalog verwalten Administratoren und Data Stewards Benutzer und ihren Zugriff auf Daten zentral für alle Arbeitsbereiche in einem Azure Databricks-Konto. Benutzer in verschiedenen Arbeitsbereichen können dieselben Daten gemeinsam nutzen, und je nach den benutzerrechten Berechtigungen, die zentral im Unity Catalog gewährt werden, auf Daten zugreifen.

Bei der Datenermittlung unterstützt der Unity Catalog Benutzer mit Funktionen wie:

  • Catalog Explorer ist die primäre Benutzeroberfläche für viele Unity Catalogfeatures. Im Catalog Explorer können Sie Schemadetails, eine Vorschau von Beispieldaten sowie Tabellendetails und -eigenschaften anzeigen. Administratoren können Besitzer anzeigen und ändern, und Administratoren und Datenobjektbesitzer können Berechtigungen erteilen und widerrufen. Sie können auch die Databricks-Suche verwenden, die es Benutzern ermöglicht, Datenressourcen (z. B. Tabellen, Spalten, Ansichten, Dashboards, Modelle usw.) einfach und nahtlos zu finden. Benutzern werden Ergebnisse angezeigt, die für ihre Suchanforderungen relevant sind und auf die sie Zugriff haben.
  • Datenherkunft in allen Abfragen, die in einem Azure Databricks-Cluster oder SQL-Warehouse ausgeführt werden. Datenherkunft wird für alle Sprachen unterstützt und wird bis auf die Spaltenebene herunter erfasst. Herkunftsdaten umfassen Notebooks, Aufträge und Dashboards, die zur Abfrage gehören. Die Herkunft kann im Katalog-Explorer nahezu in Echtzeit visualisiert und mit der Azure Databricks-REST-API abgerufen werden.

Damit Unternehmen ihren Benutzern eine ganzheitliche Sicht auf alle Daten über alle Datenplattformen hinweg liefern können, bietet Unity Catalog die Integration in Unternehmensdatenkataloge (manchmal auch als „der Katalog der Kataloge“" bezeichnet).