Erweiterte Konfigurationsoptionen in Azure Synapse Link
Azure Synapse Link bietet mehrere Möglichkeiten zum Schreiben und Lesen Ihrer Daten für verschiedene analytische Szenarien. Abhängig von Ihrem Analyseszenario können Sie aus den folgenden Optionen eine bestimmte Konfiguration auswählen.
Szenario | Gilt für | Verfügbare Konfigurationsoptionen |
---|---|---|
Betriebliche Berichterstellung | Dataverse-Tabellen, Tabellen und Entitäten von Finanz‑ und Betrieb | Synapse Analytics mit Delta Lake-Option bietet bessere Abfragereaktionszeiten, insbesondere bei der Abfrage großer Datenmengen. Weitere Informationen: Synapse Link mit Delta Lake-Option |
Betriebliche Berichterstellung | Dataverse nur Tabellen | Synapse Link mit der Konfigurationsoption „Direktes Update“ stellt CSV-Dateien in Ihrem Data Lake bereit, die nahezu in Echtzeit aktualisiert werden Diese ist einem Legacy-Option für Dataverse-Tabellen. Diese Option wird für Tabellen von Finanz- und Betriebs-Apps nicht unterstützt. |
Datenintegration | Dataverse-Tabellen sowie Tabellen und Entitäten von Finanz‑ und Betrieb | Die Option Nur anfügen stellt CSV-Dateien bereit, die inkrementelle Daten enthalten. Sie können Pipelines erstellen, die inkrementelle Daten verbrauchen und nachgelagerte Systeme füllen Das Feature Benutzerdefinierte Datenpartitionierung ermöglicht speziell für Dataverse-Tabellen die Auswahl einer benutzerdefinierten Datenpartitionierungsstrategie. Tabellendaten von Finanz- und Betriebs werden vom System basierend auf einer entsprechenden Partitionsstrategie partitioniert. Diese Option ist für Finanz- und Betriebs-Apps nicht verfügbar |
Anmerkung
Azure Synapse Link for Dataverse war früher als „Nach Data Lake exportieren“ bekannt. Der Service wurde mit Wirkung zum Mai 2021 umbenannt und exportiert weiterhin Daten nach Azure Data Lake Storage sowie Azure Synapse Analytics. Ab September 2023 können Sie mit Azure Synapse Link auch Daten aus Finanz- und Betriebsanwendungen von Dynamics 365 auswählen. Nicht alle Integrationsmuster werden mit Finanz- und Betriebs-Apps unterstützt. Eine Anleitung zum Übergang von des Features „Nach Data Lake exportieren“ in Finanz- und Betriebs-Apps zu Synapse Link finden Sie in der Übergangsanleitung.
In diesem Artikel werden die für Dataverse Tabellen verfügbaren erweiterten Konfigurationseinstellungen behandelt. Diese Optionen sind für Finanz- und Betriebs-Apps nicht verfügbar.
- In-Place-Updates vs. Nur-anhängen-Schreiben.
- Benutzer-spezifische Datenpartitionierung.
Direkten Updates im Vergleich zu Schreibvorgängen, die nur angehängt werden
Beim Schreiben von Dataverse Tabellendaten zum Azure Data Lake, basierend auf dem createdOn
Wert, dh Datum und Uhrzeit der Erstellung des Datensatzes, stehen zwei verschiedene Einstellungen zur Auswahl. Das sind Direkter Update und Nur anhängen.
Die Standardeinstellung (für Tabellen, in denen createdOn
verfügbar ist) ist eine direkte Aktualisierung oder ein Upsert (Aktualisierung oder Einfügung) der inkrementellen Daten im Ziel. Wenn die Änderung neu ist und keine entsprechende Zeile im Lake vorhanden ist, werden im Falle einer Erstellung die Zieldateien gescannt und die Änderungen in die entsprechende Dateipartition im Lake eingefügt. Wenn es sich bei der Änderung um eine Aktualisierung handelt und eine Zeile im Lake vorhanden ist, wird die entsprechende Datei im Lake mit den inkrementellen Daten aktualisiert und nicht eingefügt. Mit anderen Worten, die Standardeinstellung für alle CUD (erstellen, aktualisieren, löschen)-Änderungen in Dataverse Tabellen, wo createdOn
verfügbar ist es, eine direkte Aktualisierung im Ziel in Azure Data Lake durchzuführen.
Sie können das Standardverhalten eines direkten Updates mithilfe einer optionalen Einstellung namens Nur anhängen ändern. Anstatt eines direkten Update im Modus Nur anhängen werden inkrementelle Daten von Dataverse Tabellen an die entsprechende Dateipartition im Lake angehängt. Dies ist eine Einstellung pro Tabelle und als Kontrollkästchen unter Erweitert>Erweiterte Konfigurationseinstellungen anzeigen verfügbar. Für Dataverse Tabellen, bei denen Nur anhängen aktiviert ist, werden alle CUD-Änderungen schrittweise an die entsprechenden Zieldateien im Lake angehängt. Wenn Sie diese Option auswählen, ist die Partitionsstrategie standardmäßig auf Jahr festgelegt. Wenn Daten in den Data Lake geschrieben werden, werden sie auf jährlicher Basis partitioniert. Nur anfügen ist auch die Standardeinstellung für Dataverse-Tabellen, die keinen createdOn
-Wert haben.
In dieser Tabelle wird beschrieben, wie Zeilen im Lake gegen CUD-Ereignisse für jede der Datenschreiboptionen behandelt werden.
Veranstaltung | Direkter Update | Nur anfügen |
---|---|---|
Erstellen | Die Zeile wird in die Partitionsdatei eingefügt und basiert auf dem createdOn Wert in der Zeile. |
Die Zeile wird am Ende der Partitionsdatei hinzugefügt und basiert auf dem createdOn Wert des Datensatzes. |
Aktualisieren | Wenn die Zeile in der Partitionsdatei vorhanden ist, wird sie durch aktualisierte Daten ersetzt oder aktualisiert. Wenn sie nicht existiert, wird sie in die Datei eingefügt. | Die Zeile wird zusammen mit der aktualisierten Version am Ende der Partitionsdatei hinzugefügt. |
Entf | Wenn die Zeile in der Partitionsdatei vorhanden ist, wird sie aus der Datei entfernt. | Die Zeile wird zusammen mit der aktualisierten Version am Ende der Partitionsdatei mit IsDelete column = True hinzugefügt. |
Anmerkung
Für Dataverse Tabellen, bei denen die Option Nur anhängen aktiviert ist, wird beim Löschen einer Zeile in der Quelle die Zeile im Lake nicht gelöscht oder entfernt. Stattdessen wird die gelöschte Zeile als neue Zeile im Lake angehängt und die Spalte isDeleted
wird auf Wahr gesetzt.
Der ungültige Lesevorgang (ALLOW_INCONSISTENT_READS) für serverloses Lesen ist für den „Nur anhängen“-Modus aktiviert. ALLOW_INCONSISTENT_READS bedeutet, dass der Benutzer die Dateien lesen kann, die ständig geändert werden können, während die SELECT
-Abfrage ausgeführt wird. Die Ergebnisse sind konsistent und entsprechen dem Lesen einer Momentaufnahme der Datei. (Aufgrund der unterschiedlichen Erstellungszeit der Momentaufnahme entspricht dies nicht der Isolierung von Datenbank-Momentaufnahmen.)
Nicht alle CUD-Änderungen werden in nur anhängen erfasst: Der Synapse Link verarbeitet Änderungen an Daten in Gruppen oder „Batches“, bevor sie im Data Lake veröffentlicht werden. Wenn der Benutzer innerhalb eines kurzen Zeitintervalls Änderungen vornimmt, werden daher nicht alle CUD-Änderungen im Data Lake erfasst.
Hier sind einige weitere Details darüber, wann Sie eine der Optionen verwenden sollten.
- In-situ aktualisieren: Diese Option ist die Standardeinstellung und wird nur empfohlen, wenn Sie eine direkte Verbindung zu den Daten im Lake herstellen möchten und den aktuellen Status benötigen (kein Verlauf, keine inkrementellen Änderungen). Die Datei enthält das vollständige DataSet und kann über Power BI oder durch Kopieren des gesamten DataSet für ETL-Pipelines (Extrahieren, Übertragen, Laden) verwendet werden.
- Nur anhängen: Wählen Sie diese Option, wenn Sie keine direkte Verbindung zu Daten im Lake herstellen und Daten mithilfe von ETL-Pipelines schrittweise auf ein anderes Ziel kopieren möchten. Diese Option bietet einen Änderungsverlauf, um KI- und ML-Szenarien zu aktivieren.
Sie können die Erweiterte Konfigurationseinstellungen anzeigen unter Fortgeschritten im Azure Synapse Link for Dataverse, um Ihre Datenpartitionsstrategie anzupassen und Optionen zum Schreiben in den Azure Data Lake auszuwählen.
Datenpartitionierung
Wenn Sie Dataverse Tabellendaten in Azure Data Lake Storage mit Azure Synapse Link schreiben, werden die Tabellen (anstelle einer einzelnen Datei) im See basierend auf dem Wert createdOn
für jede Zeile in der Quelle partioniert. Die Standardpartitionierungsstrategie ist monatlich und die Daten werden monatlich im Azure Data Lake partitioniert.
Basierend auf dem Volumen der Tabelle Dataverse und der Datenverteilung können Sie Ihre Daten nach Jahren partitionieren. Mit dieser Option werden die Daten der Tabelle Dataverse, wenn sie in den Azure Data-Lake geschrieben werden, jährlich auf der Grundlage des Wertes createdOn
in jeder Zeile der Quelle partitioniert. Bei Tabellen ohne die Spalte createdOn
werden die Datenzeilen alle 5.000.000 Datensätze in eine neue Datei partitioniert. Dies ist eine Einstellung pro Tabelle und steht als Kontrollkästchen unter Erweitert>Erweiterte Konfigurationseinstellungen anzeigen zur Verfügung.
Weitere Details mit Beispielen, wie Daten im Lake mit jährlicher oder monatlicher Partitionsstrategie behandelt werden: