Mit Common Data Model-Tabellen in Azure Data Lake Storage verbinden
Anmerkung
Azure Active Directory ist jetzt Microsoft Entra ID. Weitere Informationen
Erfassen Sie Dynamics 365 Customer Insights - Data mit Ihrem Azure Data Lake Storage-Konto mit Common Data Model-Tabellen. Die Datenaufnahme kann vollständig oder inkrementell erfolgen.
Anforderungen
Die Azure Data Lake Storage Konten müssen hierarchischer Namespace aktiviert haben. Die Daten müssen in einem hierarchischen Ordnerformat gespeichert werden, das den Stammordner definiert und Unterordner für jede Tabelle hat. Die Unterordner können Ordner mit vollständigen Daten oder inkrementellen Daten enthalten.
Um sich mit einem Microsoft Entra-Dienstprinzipal zu authentifizieren, stellen Sie sicher, dass es in Ihrem Mandanten konfiguriert ist. Weitere Informationen finden Sie unter Verbinden Sie sich mit einem Azure Data Lake Storage-Konto mit einem Microsoft Entra-Dienstprinzipal.
So stellen Sie eine Verbindung mit einem durch Firewalls geschützten Speicher her: Richten Sie Azure Private Links ein.
Wenn Ihr Data Lake derzeit über Private-Link-Verbindungen verfügt, Customer Insights - Data muss unabhängig von der Netzwerkzugriffseinstellung auch eine Verbindung über eine private Verbindung hergestellt werden.
Der Azure Data Lake Storage, zu dem Sie eine Verbindung herstellen und von dem Sie Daten erfassen, muss sich in derselben Azure-Region wie die Dynamics 365 Customer Insights-Umgebung befinden und das Abonnement muss sich im selben Mandant befinden. Verbindungen zu einem Common Data Model-Ordner aus einem Data Lake in einer anderen Azure-Region werden nicht unterstützt. Um die Azure-Region der Umgebung zu erfahren, gehen Sie zu Einstellungen>System>Info in Customer Insights - Data.
Daten, die in Onlinediensten gespeichert sind, können an einem anderen Ort gespeichert werden als dort, wo die Daten verarbeitet oder gespeichert werden. Durch den Import von oder die Verbindung zu Daten, die in Onlinediensten gespeichert sind, erklären Sie sich damit einverstanden, dass die Daten übertragen werden können. Weitere Informationen finden Sie im Microsoft Trust Center.
Der Customer Insights - Data-Dienstprinzipal muss sich in einer der folgenden Rollen befinden, um auf das Speicherkonto zugreifen zu können. Weitere Informationen finden Sie unter Gewähren Sie dem Dienstprinzipal Berechtigungen für den Zugriff auf das Speicherkonto.
- Speicher-Blob-Datenleser
- Speicher-Blob-Datenbesitzer
- Storage-Blob-Daten-Mitwirkender
Wenn Sie mit der Option Azure-Abonnement eine Verbindung zu Ihrem Azure Storage herstellen, benötigt der Benutzer, der die Datenquellenverbindung einrichtet, mindestens die Berechtigungen für Storage Blob-Datenmitwirkender für das Speicherkonto.
Wenn Sie mit der Option Azure-Ressource eine Verbindung zu Ihrem Azure Storage herstellen, benötigt der Benutzer, der die Datenquellenverbindung einrichtet, mindestens die Berechtigungen für die Aktion Microsoft.Storage/storageAccounts/read für das Speicherkonto. Eine integrierte Azure-Rolle, die diese Aktion enthält, ist die Leser-Rolle. Um den Zugriff auf nur die erforderliche Aktion zu beschränken, erstellen Sie eine benutzerdefinierte Azure-Rolle, die nur diese Aktion enthält.
Für eine optimale Leistung sollte die Größe einer Partition 1 GB oder weniger betragen und die Anzahl der Partitionsdateien in einem Ordner darf 1000 nicht überschreiten.
Daten in Ihrem Data Lake Storage sollten dem Common Data Model-Standard für die Speicherung Ihrer Daten folgen und über das Common Data Model-Manifest verfügen, um das Schema der Datendateien (*.csv oder *.parquet) darzustellen. Das Manifest muss die Details der Tabellen wie Tabellenspalten und Datentypen sowie den Speicherort und den Dateityp der Datendatei enthalten. Weitere Informationen unter Common Data Model-Manifest. Wenn das Manifest nicht vorhanden ist, können Admin-Benutzer mit Zugriff auf Storage Blob Data Owner oder Storage Blob Data Teilnehmer das Schema beim Erfassen der Daten definieren.
Anmerkung
Wenn eines der Felder in den .parquet-Dateien den Datentyp Int96 hat, werden die Daten möglicherweise nicht auf der Seite Tabellen angezeigt. Wir empfehlen die Verwendung von Standarddatentypen wie dem Unix-Zeitstempelformat (das die Zeit als Anzahl der Sekunden seit dem 1. Januar 1970 um Mitternacht UTC darstellt).
Einschränkungen
- Customer Insights - Data unterstützt keine Spalten vom Typ „Dezimal“ mit einer Genauigkeit von mehr als 16.
Mit Azure Data Lake Storage verbinden
Datenverbindungsnamen, Datenpfade, z. B. Ordner in einem Container, und Tabellennamen müssen Namen verwenden, die mit einem Buchstaben beginnen. Namen können nur Buchstaben, Ziffern und Unterstriche (_) enthalten. Sonderzeichen werden nicht unterstützt.
Wechseln Sie zu Daten>Datenquellen.
Wählen Sie Datenquelle hinzufügen aus.
Geben Sie einen Datenquellenname und eine optionale Beschreibung ein. Der Name wird in nachgelagerten Prozessen referenziert und kann nicht geändert werden, nachdem die Datenquelle erstellt wurde.
Wählen Sie eine der folgenden Optionen für Verbinden Sie Ihren Speicher. Weitere Informationen finden Sie unter Verbinden Sie sich mit einem Azure Data Lake Storage-Konto mit einem Microsoft Entra-Dienstprinzipal.
- Azure-Ressource: Geben Sie die Ressourcen-ID ein.
- Azure-Abonnement: Wählen Sie das Abonnement und dann die Ressourcengruppe und das Speicherkonto aus.
Anmerkung
Sie benötigen eine der folgenden Rollen für den Container, um die Datenquelle zu erstellen:
- Datenleser des Storage Blobs reicht aus, um von einem Speicherkonto zu lesen und die Daten in Customer Insights - Data zu übernehmen.
- Mitwirkende und Besitzende von Storage Blob-Daten sind erforderlich, wenn Sie die Manifestdateien direkt in Customer Insights - Data bearbeiten möchten.
Wenn die Rolle für das Speicherkonto vorhanden ist, wird für alle Container dieselbe Rolle bereitgestellt.
Wählen Sie den Namen des Containers, der die Daten und das Schema (model.json- oder Manifest.json-Datei) enthält, aus denen Daten importiert werden sollen.
Anmerkung
Jede model.json- oder manifest.json-Datei, die mit einer anderen Datenquelle in der Umgebung verbunden ist, wird nicht in der Liste angezeigt. Allerdings kann dieselbe model.json- oder manifest.json-Datei für Datenquellen in mehreren Umgebungen verwendet werden.
Wählen Sie optional aus, wenn Sie Daten aus einem Speicherkonto über einen privaten Azure-Link erfassen möchten und wählen Sie Privaten Link aktivieren. Weitere Informationen finden Sie unter Private Links.
Um ein neues Schema zu erstellen, gehen Sie zu Erstellen Sie eine neue Schemadatei.
Um ein vorhandenes Schema zu verwenden, navigieren Sie zu dem Ordner, der die Datei model.json oder Manifest.cdm.json enthält. Sie können innerhalb eines Verzeichnisses suchen, um die Datei zu finden.
Wählen Sie die json-Datei und wählen Sie Weiter aus. Eine Liste mit verfügbaren Tabellen wird angezeigt.
Wählen Sie die Tabellen aus, die Sie einschließen möchten.
Tipp
Um eine Tabelle in einer JSON-Bearbeitungsschnittstelle zu bearbeiten, wählen Sie die Tabelle und dann Schemadatei bearbeiten aus. Nehmen Sie Ihre Änderungen vor, und speichern Sie sie.
Für ausgewählte Tabelle, für die kein Primärschlüssel definiert wurde, wird Erforderlich unter Primärschlüssel angezeigt. Für jede dieser Tabellen:
- Wählen Sie Erforderlich. Der Bereich Tabelle bearbeiten wird angezeigt.
- Wählen Sie den Primärschlüssel. Der Primärschlüssel ist ein für die Tabelle eindeutiges Attribut. Damit ein Attribut ein gültiger Primärschlüssel ist, sollte es keine doppelten Werte, fehlenden Werte oder Nullwerte enthalten. Als Primärschlüssel werden String-, Integer- und GUID-Datentypattribute unterstützt.
- Ändern Sie optional das Partitionsmuster.
- Wählen Sie Schließen, um den Bereich zu speichern und zu schließen.
Wählen Sie die Anzahl der Spalten für jede enthaltene Tabelle aus. Die Seite Attribute verwalten wird angezeigt.
- Erstellen Sie neue Spalten, bearbeiten oder löschen Sie vorhandene Spalten. Sie können den Namen und das Datenformat ändern oder einen semantischen Typ hinzufügen.
- Um Analysen und andere Funktionen zu aktivieren, wählen Sie Datenprofilerstellung für die gesamte Tabelle oder für bestimmte Spalten aus. Standardmäßig ist keine Tabelle für die Datenprofilierung aktiviert.
- Wählen Sie Fertig aus.
Wählen Sie Speichern. Die Seite Datenquellen öffnet sich und zeigt die neue Datenquelle im Status Wird aktualisiert an.
Tipp
Es gibt Status für Aufgaben und Prozesse. Die meisten Prozesse hängen von anderen Upstream-Prozessen ab, wie z. B. Datenquellen- und Datenprofilerstellungs-Aktualisierungen.
Wählen Sie den Status aus, um den Bereich Fortschrittsdetails zu öffnen und den Fortschritt der Aufgabe oder des Prozesses anzuzeigen. Um den Auftrag abzubrechen, wählen Sie Auftrag abbrechen am unteren Rand des Bereichs.
Bei jeder Aufgabe können sie Details anzeigen wählen, um mehr Fortschrittsinformationen zu erhalten, wie Verarbeitungszeit, letztes Verarbeitungsdatum und alle zutreffenden Fehler und Warnungen im Zusammenhang mit der Aufgabe oder dem Prozess. Wählen Sie Systemstatus anzeigen am unteren Rand des Bereichs aus, um andere Prozesse im System anzuzeigen.
Das Laden von Daten kann einige Zeit in Anspruch nehmen. Nach einer erfolgreichen Aktualisierung können die aufgenommenen Daten von der Seite Tabellen überprüft werden.
Erstellen einer neuen Schema-Datei
Wählen Sie Schemadatei erstellen aus.
Geben Sie einen Namen für die Datei ein, und wählen Sie anschließend Speichern aus.
Wählen Sie Neue Tabelle aus. Der Bereich Neu Tabelle wird angezeigt.
Geben Sie den Tabellennamen ein und wählen Sie den Speicherort der Datendateien aus.
- Mehrere .csv- oder .parquet-Dateien : Navigieren Sie zum Stammordner, wählen Sie den Mustertyp aus und geben Sie den Ausdruck ein.
- Einzelne .csv- oder .parquet-Dateien: Navigieren Sie zur .csv- oder .parquet-Datei und wählen Sie sie aus.
Wählen Sie Speichern.
Wählen Sie Definieren Sie die Attribute, um die Attribute manuell hinzuzufügen, oder wählen automatisch generieren aus. Um die Attribute zu definieren, geben Sie einen Namen ein, wählen Sie das Datenformat und optional den semantischen Typ. Für automatisch generierte Attribute:
Nachdem die Attribute automatisch generiert wurden, wählen Sie Überprüfen Sie die Attribute aus. Die Seite Attribute verwalten wird angezeigt.
Stellen Sie sicher, dass das Datenformat für jedes Attribut korrekt ist.
Um Analysen und andere Funktionen zu aktivieren, wählen Sie Datenprofilierung für die gesamte Tabelle oder für bestimmte Spalten aus. Standardmäßig ist keine Tabelle für die Datenprofilierung aktiviert.
Wählen Sie Fertig aus. Die Seite Tabellen auswählen wird angezeigt.
Fahren Sie mit dem Hinzufügen von Tabellen und Spalten fort, falls zutreffend.
Nachdem alle Tabellen hinzugefügt wurden, wählen Sie Einschließen aus, um die Tabellen in die Aufnahme von Datenquelle aufzunehmen.
Für ausgewählte Tabelle, für die kein Primärschlüssel definiert wurde, wird Erforderlich unter Primärschlüssel angezeigt. Für jede dieser Tabellen:
- Wählen Sie Erforderlich. Der Bereich Tabelle bearbeiten wird angezeigt.
- Wählen Sie den Primärschlüssel. Der Primärschlüssel ist ein für die Tabelle eindeutiges Attribut. Damit ein Attribut ein gültiger Primärschlüssel ist, sollte es keine doppelten Werte, fehlenden Werte oder Nullwerte enthalten. Als Primärschlüssel werden String-, Integer- und GUID-Datentypattribute unterstützt.
- Ändern Sie optional das Partitionsmuster.
- Wählen Sie Schließen, um den Bereich zu speichern und zu schließen.
Wählen Sie Save (Speichern). Die Seite Datenquellen öffnet sich und zeigt die neue Datenquelle im Status Wird aktualisiert an.
Tipp
Es gibt Status für Aufgaben und Prozesse. Die meisten Prozesse hängen von anderen Upstream-Prozessen ab, wie z. B. Datenquellen- und Datenprofilerstellungs-Aktualisierungen.
Wählen Sie den Status aus, um den Bereich Fortschrittsdetails zu öffnen und den Fortschritt der Aufgabe oder des Prozesses anzuzeigen. Um den Auftrag abzubrechen, wählen Sie Auftrag abbrechen am unteren Rand des Bereichs.
Bei jeder Aufgabe können sie Details anzeigen wählen, um mehr Fortschrittsinformationen zu erhalten, wie Verarbeitungszeit, letztes Verarbeitungsdatum und alle zutreffenden Fehler und Warnungen im Zusammenhang mit der Aufgabe oder dem Prozess. Wählen Sie Systemstatus anzeigen am unteren Rand des Bereichs aus, um andere Prozesse im System anzuzeigen.
Das Laden von Daten kann einige Zeit in Anspruch nehmen. Nach einer erfolgreichen Aktualisierung können die aufgenommenen Daten von der Seite Daten>Tabellen überprüft werden.
Eine Azure Data Lake Storage Datenquelle bearbeiten
Sie können die Option Stellen Sie eine Verbindung mit dem Speicherkonto her aktualisieren. Weitere Informationen finden Sie unter Verbinden Sie sich mit einem Azure Data Lake Storage-Konto mit einem Microsoft Entra-Dienstprinzipal. Um eine Verbindung zu einem anderen Container als Ihrem Speicherkonto herzustellen oder den Kontonamen zu ändern, erstellen Sie eine neue Datenquellenverbindung.
Wechseln Sie zu Daten>Datenquellen. Wählen Sie neben der Datenquelle, die Sie aktualisieren möchten, Bearbeiten aus.
Ändern Sie eine der folgenden Informationen:
Description
Verbinden Sie Ihren Speicher und Verbindungsinformationen. Sie können die Container-Informationen beim Aktualisieren der Verbindung nicht ändern.
Notiz
Dem Speicherkonto oder Container muss eine der folgenden Rollen zugewiesen werden:
- Speicher-Blob-Datenleser
- Speicher-Blob-Datenbesitzer
- Storage-Blob-Daten-Mitwirkender
Wählen Sie optional aus, wenn Sie Daten aus einem Speicherkonto über einen privaten Azure-Link erfassen möchten und wählen Sie Privaten Link aktivieren aus. Weitere Informationen finden Sie unter Private Links.
Wählen Sie Weiter.
Ändern Sie eine der folgenden Informationen:
Navigieren Sie zu einer anderen model.json- oder Manifest.json-Datei mit einem anderen Satz von Tabellen aus dem Container.
Um weitere Tabellen zur Aufnahme hinzuzufügen, wählen Sie Neue Tabelle aus.
Um bereits ausgewählte Tabellen zu entfernen, wenn keine Abhängigkeiten vorhanden sind, wählen Sie die Tabelle und Löschen aus.
Wichtig
Wenn Abhängigkeiten von der vorhandenen model.json- oder manifest.json-Datei und der Gruppe von Tabellen bestehen, wird eine Fehlermeldung angezeigt und Sie können keine andere model.json- oder manifest.json-Datei auswählen. Entfernen Sie diese Abhängigkeiten, bevor Sie die model.json- oder manifest.json-Datei ändern, oder erstellen Sie eine neue Datenquelle mit der model.json- oder manifest.json-Datei, die Sie verwenden möchten, um das Entfernen der Abhängigkeiten zu vermeiden.
Um den Speicherort der Datendatei oder den Primärschlüssel zu ändern, wählen Sie Bearbeiten aus.
Ändern Sie nur den Tabellenname so, dass er mit dem Tabellennamen in der JSON-Datei übereinstimmt.
Anmerkung
Behalten Sie nach der Aufnahme immer den Tabellennamen bei, der mit dem Tabellennamen in der Datei „model.json“ oder „manifest.json“ übereinstimmt. Customer Insights - Data validiert alle Tabellennamen mit model.json oder manifest.json bei jeder Systemaktualisierung. Wenn sich ein Tabellenname ändert, tritt ein Fehler auf, da Customer Insights - Data den neuen Tabellennamen nicht in der .json-Datei finden kann. Wenn der Name einer aufgenommenen Tabelle versehentlich geändert wurde, bearbeiten Sie den Tabellennamen so, dass er mit dem Namen in der .json-Datei übereinstimmt.
Wählen Sie Spalten zum Hinzufügen oder Ändern oder zum Aktivieren von Datenprofilen. Wählen Sie dann Fertig.
Wählen Sie Speichern, um Ihre Änderungen zu übernehmen und zur Seite Datenquellen zurückzukehren.
Tipp
Es gibt Status für Aufgaben und Prozesse. Die meisten Prozesse hängen von anderen Upstream-Prozessen ab, wie z. B. Datenquellen- und Datenprofilerstellungs-Aktualisierungen.
Wählen Sie den Status aus, um den Bereich Fortschrittsdetails zu öffnen und den Fortschritt der Aufgabe oder des Prozesses anzuzeigen. Um den Auftrag abzubrechen, wählen Sie Auftrag abbrechen am unteren Rand des Bereichs.
Bei jeder Aufgabe können sie Details anzeigen wählen, um mehr Fortschrittsinformationen zu erhalten, wie Verarbeitungszeit, letztes Verarbeitungsdatum und alle zutreffenden Fehler und Warnungen im Zusammenhang mit der Aufgabe oder dem Prozess. Wählen Sie Systemstatus anzeigen am unteren Rand des Bereichs aus, um andere Prozesse im System anzuzeigen.