Lakehousetutorial: Erfassen von Daten im Lakehouse
In diesem Tutorial erfassen Sie weitere Dimensions- und Faktentabellen aus den Wide World Importers (WWI) im Lakehouse.
Voraussetzungen
- Wenn Sie kein Lakehouse haben, müssen Sie ein Lakehouse erstellen.
Erfassen von Daten
In diesem Abschnitt verwenden Sie die Aktivität Daten kopieren der Data Factory-Pipeline, um Beispieldaten aus einem Azure-Speicherkonto im Abschnitt Dateien des zuvor erstellten Lakehouse zu erfassen.
Wählen Sie im linken Navigationsbereich Arbeitsbereiche aus, und wählen Sie dann Ihren neuen Arbeitsbereich aus dem Menü Arbeitsbereiche aus. Die Elementansicht Ihres Arbeitsbereichs wird angezeigt.
Wählen Sie aus dem Menüpunkt +Neu in der Multifunktionsleiste des Arbeitsbereichs die Option Datenpipeline.
Geben Sie im Dialogfeld Neue Pipeline den Namen IngestDataFromSourceToLakehouse ein, und wählen Sie Erstellen aus. Eine neue Data Factory-Pipeline wird erstellt und geöffnet.
Wählen Sie in Ihrer neu erstellten Data Factory-Pipeline Pipelineaktivität aus, um der Pipeline eine Aktivität hinzuzufügen, und wählen Sie dann Daten kopieren aus. Diese Aktion fügt der Pipelinecanvas die Aktivität „Daten kopieren“ hinzu.
Wählen Sie die neu hinzugefügte Aktivität „Daten kopieren“ aus der Canvas aus. Die Aktivitätseigenschaften werden in einem Bereich unterhalb der Canvas angezeigt. Möglicherweise müssen Sie den Bereich nach oben erweitern, indem Sie den oberen Rand ziehen. Geben Sie auf der Registerkarte Allgemein im Bereich Eigenschaften in das Feld Name den Text Daten nach Lakehouse kopieren ein.
Wählen Sie auf der Registerkarte Quelle der ausgewählten Datenkopieraktivität die Option Extern als Datenspeichertyp und dann + Neu aus, um eine neue Verbindung mit der Datenquelle herzustellen.
In diesem Tutorial sind alle Beispieldaten in einem öffentlichen Container von Azure Blob Storage verfügbar. Sie stellen eine Verbindung mit diesem Container her, um Daten aus diesem zu kopieren. Wählen Sie auf dem ersten Bildschirm Neue Verbindung die Option Azure Blob Storage und dann Weiter aus.
Geben Sie auf dem Bildschirm Verbindungseinstellungen die folgenden Details ein, und wählen Sie Erstellen aus, um die Verbindung mit der Datenquelle herzustellen.
Eigenschaft Wert Kontoname oder URL https://azuresynapsestorage.blob.core.windows.net/sampledata
Verbindung Neue Verbindung erstellen Verbindungsname wwisampledata Authentifizierungsart Anonym Nachdem die neue Verbindung erstellt wurde, kehren Sie zur Registerkarte Quelle der Datenkopieraktivität zurück. Die neu erstellte Verbindung ist standardmäßig ausgewählt. Geben Sie die folgenden Eigenschaften an, bevor Sie zu den Zieleinstellungen wechseln:
Eigenschaft Wert Datenspeichertyp Extern Verbindung wwisampledata Dateipfadtyp Dateipfad Dateipfad Containername (erstes Textfeld): sampledata
Verzeichnisname (zweites Textfeld): WideWorldImportersDW/parquetRekursiv Überprüft Dateiformat Binär Geben Sie auf der Registerkarte Ziel der ausgewählten Datenkopieraktivität die folgenden Eigenschaften an:
Eigenschaft Wert Datenspeichertyp Arbeitsbereich Datenspeichertyp des Arbeitsbereichs Lakehouse Lakehouse wwilakehouse Stammordner Dateien Dateipfad Verzeichnisname (erstes Textfeld): wwi-raw-data Dateiformat Binär Somit haben Sie die Aktivität Daten kopieren konfiguriert. Wählen Sie das Symbol Speichern in der oberen Multifunktionsleiste (unter Start), um Ihre Änderungen zu speichern, und wählen Sie Ausführen, um Ihre Pipeline und ihre Aktivität auszuführen. Sie können Pipelines auch planen, um Daten in definierten Intervallen zu aktualisieren und Ihre unternehmensspezifischen Anforderungen zu erfüllen. In diesem Tutorial führen wir die Pipeline nur einmal aus, indem wir Ausführen auswählen.
Diese Aktion löst das Kopieren von Daten aus der zugrunde liegenden Datenquelle in das angegebene Lakehouse aus. Der Vorgang kann bis zu einer Minute dauern. Sie können die Ausführung der Pipeline und deren Aktivitäten auf der Registerkarte Ausgabe überwachen, die angezeigt wird, wenn Sie auf eine beliebige Stelle auf der Canvas klicken. Optional können Sie das Brillensymbol auswählen, das angezeigt wird, wenn Sie mit der Maus auf den Namen zeigen, um sich die Details der Datenübertragung anzusehen.
Nachdem die Daten kopiert wurden, wechseln Sie zur Elementansicht des Arbeitsbereichs, und wählen Sie Ihr neues Lakehouse (wwilakehouse) aus, um die Explorer-Ansicht zu öffnen.
Überprüfen Sie, ob in der Explorer-Ansicht ein neuer Ordner wwi-raw-data erscheint und die Daten für alle Tabellen auch dorthin kopiert werden.
Um inkrementelle Daten in ein Lakehouse zu laden, siehe Inkrementelles Laden von Daten aus einem Data Warehouse in ein Lakehouse.