Funktionsweise von Azure Synapse Analytics

8 Minuten

Um die Analyseanforderungen heutiger Organisationen zu unterstützen, kombiniert Azure Synapse Analytics einen zentralen Dienst für die Datenspeicherung und -verarbeitung mit einer erweiterbaren Architektur, über die Sie mithilfe verknüpfter Dienste häufig verwendete Datenspeicher, Verarbeitungsplattformen und Visualisierungstools integrieren können.

Erstellen und Verwenden eines Azure Synapse Analytics-Arbeitsbereichs

Ein Synapse Analytics-Arbeitsbereich definiert eine Instanz des Synapse Analytics-Diensts, in der Sie die für Ihre Analyselösung benötigten Dienste und Datenressourcen verwalten können. Sie können einen Synapse Analytics-Arbeitsbereich in einem Azure-Abonnement interaktiv mithilfe des Azure-Portals erstellen oder die Bereitstellung mit Azure PowerShell, der Azure-Befehlszeilenschnittstelle (CLI) oder mit einer Azure Resource Manager- oder Bicep-Vorlage automatisieren.

Nachdem Sie einen Synapse Analytics-Arbeitsbereich erstellt haben, können Sie die Dienste darin verwalten und Datenanalyseaufgaben mithilfe von Synapse Studio, einem webbasierten Portal für Azure Synapse Analytics, durchführen.

Arbeiten mit Dateien in einem Data Lake

Eine der Kernressourcen in einem Synapse Analytics-Arbeitsbereich ist ein Data Lake, in dem Datendateien im großen Stil gespeichert und verarbeitet werden können. Ein Arbeitsbereich weist in der Regel einen Standard-Data Lake auf, der als verknüpfter Dienst für einen Azure Data Lake Storage Gen2-Container implementiert wird. Sie können verknüpfte Dienste für mehrere Data Lakes hinzufügen, die nach Bedarf auf verschiedenen Speicherplattformen basieren.

Erfassen und Transformieren von Daten mit Pipelines

Bei den meisten Datenanalyselösungen für Unternehmen werden Daten aus mehreren operativen Quellen extrahiert und zur Analyse an einen zentralen Data Lake oder ein zentrales Data Warehouse übertragen. Azure Synapse Analytics bietet integrierte Unterstützung für das Erstellen, Ausführen und Verwalten von Pipelines, die die erforderlichen Aktivitäten zum Abrufen von Daten aus einer Reihe von Quellen orchestrieren, die Daten nach Bedarf transformieren und die resultierenden transformierten Daten in einen Analysespeicher laden.

Hinweis

Pipelines in Azure Synapse Analytics basieren auf derselben zugrunde liegenden Technologie wie Azure Data Factory. Wenn Sie bereits mit Azure Data Factory vertraut sind, können Sie die vorhandenen Kenntnisse nutzen, um Lösungen für die Datenerfassung und -transformation in Azure Synapse Analytics zu erstellen.

Abfragen und Bearbeiten von Daten mit SQL

SQL (Structured Query Language) ist eine häufig genutzte Sprache zum Abfragen und Bearbeiten von Daten und bildet die Grundlage für relationale Datenbanken, einschließlich der beliebten Datenbankplattform Microsoft SQL Server. Azure Synapse Analytics unterstützt die SQL-basierte Datenabfrage und -bearbeitung durch zwei Arten von SQL-Pools, die auf dem relationalen SQL Server-Datenbankmodul basieren:

Einen integrierten serverlosen Pool, der für die Verwendung relationaler SQL-Semantik zum Abfragen von dateibasierten Daten in einem Data Lake optimiert ist.
Benutzerdefinierte dedizierte SQL-Pools, die relationale Data Warehouses hosten.

Das Azure Synapse SQL-System verwendet ein verteiltes Abfrageverarbeitungsmodell zum Parallelisieren von SQL-Vorgängen, was zu einer hochgradig skalierbaren Lösung für die relationale Datenverarbeitung führt. Sie können den integrierten serverlosen Pool für eine kostengünstige Analyse und Verarbeitung von Dateidaten im Data Lake verwenden und dedizierte SQL-Pools nutzen, um relationale Data Warehouses zur Datenmodellierung und Berichterstellung für Unternehmen zu erstellen.

Verarbeiten und Analysieren von Daten mit Apache Spark

Apache Spark ist eine Open-Source-Plattform für Big Data-Analysen. Spark nimmt eine verteilte Verarbeitung von Dateien in einem Data Lake vor, indem Aufträge ausgeführt werden, die mit einer Reihe von unterstützten Programmiersprachen implementiert werden können. In Spark unterstützte Sprachen umfassen Python, Scala, Java, SQL und C#.

In Azure Synapse Analytics können Sie einen oder mehrere Spark-Pools erstellen und interaktive Notebooks verwenden, um Code und Hinweise zu kombinieren, während Sie Lösungen für die Datenanalyse, maschinelles Lernen und Datenvisualisierung erstellen.

Untersuchen von Daten mit Data Explorer

Azure Synapse Data Explorer ist ein Datenverarbeitungsmodul in Azure Synapse Analytics, das auf dem Azure Data Explorer-Dienst basiert. Data Explorer verwendet eine intuitive Abfragesyntax mit dem Namen KQL (Kusto Query Language), um eine leistungsstarke Analyse von Batch- und Streamingdaten mit niedriger Latenzzeit zu ermöglichen.

Integration in andere Azure-Datendienste

Azure Synapse Analytics kann für End-to-End-Analyselösungen in andere Azure-Datendienste integriert werden. Integrierte Lösungen umfassen Folgendes:

Azure Synapse Link ermöglicht eine Synchronisierung nahezu in Echtzeit zwischen operativen Daten in Azure Cosmos DB, Azure SQL-Datenbank, SQL Server und Microsoft Power Platform Dataverse sowie analytischem Datenspeicher, der in Azure Synapse Analytics abgefragt werden kann.
Die Integration von Microsoft Power BI ermöglicht es Datenanalysten, einen Power BI-Arbeitsbereich in einen Synapse-Arbeitsbereich zu integrieren und eine interaktive Datenvisualisierung in Azure Synapse Studio durchzuführen.
Die Integration von Microsoft Purview ermöglicht es Organisationen, Datenressourcen in Azure Synapse Analytics zu katalogisieren, und erleichtert Data Engineers das Auffinden von Datenressourcen und Nachverfolgen der Datenherkunft beim Implementieren von Datenpipelines, die Daten in Azure Synapse Analytics erfassen.
Die Integration von Azure Machine Learning ermöglicht es Datenanalysten und Data Scientists, das Training und die Nutzung von Vorhersagemodellen in Analyselösungen zu integrieren.