Teilen über


Terminologie für Azure Synapse Analytics

Dieser Artikel enthält Informationen zu den grundlegenden Konzepten von Azure Synapse Analytics.

Synapse-Arbeitsbereich

Ein Synapse-Arbeitsbereich bietet einen sicherungsfähigen abgegrenzten Bereich für die Zusammenarbeit an cloudbasierten Unternehmensanalysen in Azure. Ein Arbeitsbereich wird in einer bestimmten Region bereitgestellt und verfügt über ein zugeordnetes Azure Data Lake Storage Gen2-Konto und Dateisystem zum Speichern temporärer Daten. Ein Arbeitsbereich befindet sich unter einer Ressourcengruppe.

Ein Arbeitsbereich ermöglicht die Ausführung von Analysen mit SQL und Apache Spark. Für SQL- und Spark-Analysen verfügbare Ressourcen werden in SQL- und Spark-Pools organisiert.

Verknüpfte Dienste

Ein Arbeitsbereich kann eine beliebige Anzahl von verknüpften Diensten enthalten. Dabei handelt es sich im Wesentlichen um Verbindungszeichenfolgen, mit denen die Informationen definiert werden, die erforderlich sind, damit vom Arbeitsbereich eine Verbindung mit externen Ressourcen hergestellt werden kann.

Synapse SQL

Mit Synapse SQL können Sie Transact-SQL-basierte (T-SQL) Analysen im Synapse-Arbeitsbereich durchführen. Synapse SQL hat zwei Verbrauchsmodelle: dediziert und serverlos. Verwenden Sie für das dedizierte Modell dedizierte SQL-Pools. Ein Arbeitsbereich kann eine beliebige Anzahl dieser Pools enthalten. Verwenden Sie zur Nutzung des serverlosen Modells serverlose SQL-Pools. Jeder Arbeitsbereich verfügt über einen dieser Pools.

In Synapse Studio können Sie SQL-Pools verwenden, indem Sie SQL-Skripts ausführen.

Hinweis

Ein dedizierter SQL-Pool in Azure Synapse unterscheidet sich vom dedizierten SQL-Pool (früher SQL DW). Nicht alle Features des dedizierten SQL Pools in Azure Synapse Arbeitsbereichen gelten für dedizierte SQL Pools (ehemals SQL DW) und umgekehrt. Informationen zum Aktivieren von Arbeitsbereichsfeatures für einen vorhandenen dedizierten SQL-Pool (früher SQL DW) finden Sie unter Aktivieren von Arbeitsbereichsfeatures für einen dedizierten SQL-Pool (früher SQL DW).

Apache Spark für Synapse

Erstellen und verwenden Sie zur Nutzung von Spark-Analysen serverlose Apache Spark-Pools in Ihrem Synapse-Arbeitsbereich. Wenn Sie mit der Verwendung eines Spark-Pools beginnen, wird vom Arbeitsbereich eine Spark-Sitzung für die Behandlung der mit dieser Sitzung verknüpften Ressourcen erstellt.

Spark kann in Synapse auf zwei Arten verwendet werden:

  • Spark-Notebooks verwenden Scala, PySpark, C# und SparkSQL für Data Science und Datentechnik
  • Spark-Auftragsdefinitionen verwenden zur Ausführung von Spark-Batchaufträgen JAR-Dateien

SynapseML

SynapseML (zuvor als MMLSpark bezeichnet) ist eine Open-Source-Bibliothek, die die Erstellung hochgradig skalierbarer Machine Learning-Pipelines (ML) vereinfacht. Es handelt sich dabei um ein Ökosystem von Tools, mit denen das Apache Spark-Framework in verschiedene neue Richtungen erweitert wird. SynapseML vereint mehrere vorhandene Frameworks für maschinelles Lernen und neue Microsoft-Algorithmen in einer einzigen, skalierbaren API, die in Python, R, Scala, .NET und Java verwendet werden kann. Weitere Informationen finden Sie unter Was ist SynapseML?

Pipelines

Pipelines werden von Azure Synapse für die Datenintegration verwendet und ermöglichen es Ihnen, Daten zwischen Diensten zu verschieben und Aktivitäten zu orchestrieren.

  • Bei Pipelines handelt es sich um eine logische Gruppierung von Aktivitäten, die gemeinsam eine Aufgabe ausführen.
  • Aktivitäten dienen zum Definieren von Aktionen innerhalb einer Pipeline, die für Daten ausgeführt werden sollen, z. B. Kopieren von Daten oder Ausführen einer Notebook-Instanz oder eines SQL-Skripts.
  • Bei Datenflüssen handelt es sich um eine bestimmte Form von Aktivität für codefreie Datentransformationen mit Synapse Spark im Hintergrund.
  • Ein Trigger führt eine Pipeline aus. Er kann manuell oder automatisch ausgeführt werden (zeitplanbasiert, rollierendes Fenster oder ereignisbasiert).
  • Bei einem Integrationsdataset handelt es sich um eine benannte Ansicht von Daten, die einfach auf die Daten verweist, die in einer Aktivität als Ein- und Ausgabe verwendet werden sollen. Es gehört zu einem verknüpften Dienst.

Data Explorer (Vorschau)

Azure Synapse Data Explorer bietet der Kundschaft eine interaktive Abfrage, um Erkenntnisse aus Protokoll- und Telemetriedaten zu gewinnen.

  • Data Explorer-Pools sind dedizierte Cluster, die zwei oder mehr Serverknoten mit lokalem SSD-Speicher (Cache für heiße Daten) für optimierte Abfrageleistung und mehrere Speicherblobs (Cache für kalte Daten) für Persistenz enthalten.
  • Data Explorer-Datenbanken werden in Data Explorer-Pools gehostet und sind logische Entitäten, die aus Sammlungen von Tabellen und anderen Datenbankobjekten bestehen. Sie können mehrere Datenbanken pro Pool verwenden.
  • Tabellen sind Datenbankobjekte, die Daten enthalten, die in einem herkömmlichen relationalen Datenmodell organisiert sind. Die Daten werden in Datensätzen gespeichert, die dem klar definierten Tabellenschema von Data Explorer entsprechen, das eine sortierte Liste von Spalten definiert, die jeweils einen Namen und einen skalaren Datentyp haben. Skalare Datentypen können strukturiert (int, real, datetime oder timespan), teilweise strukturiert (dynamic) oder freier Text (string) sein. Der dynamische Typ ähnelt JSON, da er einen einzelnen Skalarwert, ein Array oder ein Wörterbuch mit solchen Werten enthalten kann.
  • Externe Tabellen sind Tabellen, die auf einen Speicher oder eine SQL-Datenquelle außerhalb der Data Explorer-Datenbank verweisen. Ähnlich wie Tabellen verfügt eine externe Tabelle über ein klar definiertes Schema (eine geordnete Liste von Spaltennamen- und Datentyppaaren). Im Gegensatz zu Data Explorer-Tabellen, bei denen Daten in Data Explorer-Pools erfasst werden, werden externe Tabellen für Daten verwendet, die außerhalb der Pools gespeichert und verwaltet werden. Externe Tabellen speichern keine Daten und werden zum Abfragen oder Exportieren von Daten in einen externen Datenspeicher verwendet.