Identifizieren von Datendiensten
Microsoft Azure ist eine Cloudplattform, die die Anwendungen und die IT-Infrastruktur für einige der größten Organisationen der Welt unterstützt. Sie umfasst viele Dienste zur Unterstützung von Cloudlösungen, einschließlich Transaktions- und Analysedatenworkloads.
Einige der am häufigsten verwendeten Clouddienste für Daten werden unten beschrieben.
Hinweis
In diesem Artikel werden nur einige der am häufigsten verwendeten Datendienste für moderne Transaktions- und Analyselösungen behandelt. Weitere Dienste sind ebenfalls verfügbar.
Azure SQL
Azure SQL ist der gemeinsame Name für eine Familie relationaler Datenbanklösungen, die auf der Microsoft SQL Server-Datenbank-Engine basieren. Zu den spezifischen Azure SQL-Diensten gehören:
- Azure SQL-Datenbank: Eine vollständig verwaltete PaaS-Datenbank (Platform-as-a-Service), die in Azure gehostet wird
- Azure SQL Managed Instance: Eine gehostete Instanz von SQL Server mit automatisierter Wartung, die eine flexiblere Konfiguration als Azure SQL DB ermöglicht, aber mehr Administratorrechte für den Besitzer hat
- Azure SQL-VM: Ein virtueller Computer mit einer Installation von SQL Server, der maximale Konfigurierbarkeit mit vollständiger Verwaltungszuteilung ermöglicht.
Datenbankadministratoren stellen in der Regel Azure SQL-Datenbanksysteme bereit und verwalten sie, um Branchenanwendungen zu unterstützen, die Transaktionsdaten speichern müssen.
Data Engineers können Azure SQL-Datenbanksysteme als Quellen für Datenpipelines verwenden, die ETL-Vorgänge (Extrahieren, Transformieren und Laden) ausführen, um die Transaktionsdaten in einem Analysesystem zu erfassen.
Data Analysts können Azure SQL-Datenbanken direkt abfragen, um Berichte zu erstellen. In großen Organisationen werden die Daten jedoch in der Regel mit Daten aus anderen Quellen in einem Analysedatenspeicher kombiniert, um Unternehmensanalysen zu unterstützen.
Open-Source-Datenbanken in Azure
Azure enthält verwaltete Dienste für beliebte relationale Open-Source-Datenbanksystemen, einschließlich der folgenden:
Azure Database for MySQL: ein einfach zu verwendendes Open-Source-Datenbank-Managementsystem, das häufig in Linux-, Apache-, MySQL- und PHP-Stapel-Apps (LAMP) verwendet wird.
Azure Database for MariaDB ist ein neueres Datenbank-Managementsystem, das von den ursprünglichen Entwicklern von MySQL erstellt wurde. Die Datenbank-Engine wurde inzwischen überarbeitet und optimiert, um die Leistung zu verbessern. MariaDB bietet Kompatibilität mit Oracle Database (einem weiteren beliebten kommerziellen Datenbank-Managementsystem).
Azure Database for PostgreSQL ist eine hybride relationale Objektdatenbank. Sie können Daten in relationalen Tabellen speichern, aber eine PostgreSQL-Datenbank ermöglicht es Ihnen auch, benutzerdefinierte Datentypen mit ihren eigenen, nicht relationalen Eigenschaften zu speichern.
Wie bei Azure SQL-Datenbanksystemen werden relationale Open-Source-Datenbanken von Datenbankadministrator*innen verwaltet, um Transaktionsanwendungen zu unterstützen, und stellen eine Datenquelle für Data Engineers bereit, die Pipelines für analytische Lösungen erstellen, und Data Analysts, die Berichte erstellen.
Azure Cosmos DB
Azure Cosmos DB ist ein globales, nicht relationales Datenbanksystem (NoSQL), das mehrere Anwendungsprogrammierschnittstellen (APIs) unterstützt, sodass Sie Daten als JSON-Dokumente, Schlüssel-Wert-Paare, Spaltenfamilien und Diagramme speichern und verwalten können.
In einigen Organisationen können Cosmos DB-Instanzen von einem/einer Datenbankadministrator*in bereitgestellt und verwaltet werden. Softwareentwickler*innen verwalten den NoSQL-Datenspeicher jedoch häufig als Teil der allgemeinen Anwendungsarchitektur. Data Engineers müssen häufig Cosmos DB-Datenquellen in analytische Unternehmenslösungen integrieren, die die Modellierung und Berichterstellung durch Data Analysts unterstützen.
Azure Storage
Azure Storage ist ein zentraler Azure-Dienst, mit dem Sie Daten in folgenden Komponenten speichern können:
- Blobcontainer: skalierbarer, kosteneffizienter Speicher für Binärdateien
- Dateifreigaben: Netzwerkdateifreigaben, die Sie in der Regel in Unternehmensnetzwerken finden
- Tabellen: Schlüsselwertspeicher für Anwendungen, die Datenwerte schnell lesen und schreiben müssen.
Data Engineers verwenden Azure Storage zum Hosten von Data Lakes – Blobspeicher mit einem hierarchischen Namespace, der es ermöglicht, Dateien in Ordnern in einem verteilten Dateisystem zu organisieren.
Azure Data Factory
Azure Data Factory ist ein Azure-Dienst, mit dem Sie Datenpipelines zum Übertragen und Transformieren von Daten definieren und planen können. Sie können Ihre Pipelines in andere Azure-Dienste integrieren, sodass Sie Daten aus Clouddatenspeichern erfassen, die Daten mit cloudbasiertem Compute verarbeiten und die Ergebnisse in einem anderen Datenspeicher speichern können.
Azure Data Factory wird von Data Engineers verwendet, um ETL-Lösungen (Extrahieren, Transformieren und Laden) zu erstellen, mit denen Analysedatenspeicher mit Daten aus Transaktionssystemen in der gesamten Organisation aufgefüllt werden.
Microsoft Fabric
Microsoft Fabric ist eine einheitliche SaaS-Analyseplattform (Software-as-a-Service), die auf einem offenen und verwalteten Lakehouse basiert und die folgenden Funktionen unterstützt:
- Datenaufnahme und ETL
- Data Lakehouse-Analysen
- Data Warehouse-Analysen
- Data Science und maschinelles Lernen
- Analysen in Echtzeit
- Datenvisualisierung
- Datengovernance und -verwaltung
- KI-gesteuerte Erkenntnisse
Datentechniker können Microsoft Fabric verwenden, um eine einheitliche Datenanalyselösung zu erstellen, die Datenerfassungspipelines, Data Warehouses, Echtzeitanalysen, Business Intelligence und KI-gesteuerte Erkenntnisse über einen einzigen Dienst kombiniert, wobei alle Komponenten zentral mit Microsoft OneLake gespeichert werden.
Azure Databricks
Azure Databricks ist eine in Azure integrierte Version der beliebten Databricks-Plattform, die die Apache Spark Datenverarbeitungsplattform mit SQL Datenbanksemantik und einer integrierten Verwaltungsschnittstelle kombiniert, um umfangreiche Datenanalysen zu ermöglichen.
Data Engineers können vorhandene Databricks- und Spark-Qualifikationen nutzen, um Analysedatenspeicher in Azure Databricks zu erstellen.
Data Analysts können die native Notebookunterstützung in Azure Databricks verwenden, um Daten auf einer einfach zu verwendenden webbasierten Schnittstelle abzufragen und zu visualisieren.
Azure Stream Analytics
Azure Stream Analytics ist eine Engine für die Streamverarbeitung in Echtzeit, die einen Datenstrom aus einer Eingabe erfasst, eine Abfrage zum Extrahieren und Bearbeiten von Daten aus dem Eingabestream anwendet und die Ergebnisse zur Analyse oder weiteren Verarbeitung in eine Ausgabe schreibt.
Data Engineers können Azure Stream Analytics in Datenanalysearchitekturen integrieren, die Streamingdaten für die Erfassung in einem analytischen Datenspeicher oder für die Echtzeitvisualisierung erfassen.
Azure-Daten-Explorer
Azure Data Explorer ist eine vollständig verwaltete, eigenständige Big-Data-Analyseplattform, die eine leistungsstarke Abfrage von Protokoll- und Telemetriedaten bietet.
Datenanalysten können Azure Data Explorer verwenden, um Daten abzufragen und zu analysieren, die ein Zeitstempelattribut enthalten, z. B. in Protokolldateien und IoT-Telemetriedaten (Internet of Things, Internet der Dinge).
Microsoft Purview
Microsoft Purview bietet eine Lösung für unternehmensweite Datengovernance und Auffindbarkeit. Sie können Microsoft Purview verwenden, um eine Zuordnung Ihrer Daten zu erstellen und die Datenherkunft über mehrere Datenquellen und Systeme nachzuverfolgen, sodass Sie vertrauenswürdige Daten für Analysen und die Berichterstellung finden können.
Data Engineers können Microsoft Purview verwenden, um Datengovernance im gesamten Unternehmen zu erzwingen und die Integrität der verwendeten Daten zur Unterstützung analytischer Workloads sicherzustellen.