Lakehousetutorial: Erfassen von Daten im Lakehouse
In diesem Tutorial erfassen Sie weitere Dimensions- und Faktentabellen aus den Wide World Importers (WWI) im Lakehouse.
Voraussetzungen
- Wenn Sie kein Lakehouse haben, müssen Sie ein Lakehouse erstellen.
Erfassen von Daten
In diesem Abschnitt verwenden Sie die Aktivität Daten kopieren der Data Factory-Pipeline, um Beispieldaten aus einem Azure-Speicherkonto im Abschnitt Dateien des zuvor erstellten Lakehouse zu erfassen.
Wählen Sie im linken Navigationsbereich Arbeitsbereiche aus, und wählen Sie dann Ihren neuen Arbeitsbereich aus dem Menü Arbeitsbereiche aus. Die Elementansicht Ihres Arbeitsbereichs wird angezeigt.
Wählen Sie aus dem Menüpunkt +Neu in der Multifunktionsleiste des Arbeitsbereichs die Option Datenpipeline.
Geben Sie im Dialogfeld Neue Pipeline den Namen IngestDataFromSourceToLakehouse ein, und wählen Sie Erstellen aus. Eine neue Data Factory-Pipeline wird erstellt und geöffnet.
Als Nächstes richten Sie eine HTTP-Verbindung ein, um die World Wide Importers-Beispieldaten in das Lakehouse zu importieren. Wählen Sie in der Liste der Neuen Quellen Weitere anzeigen aus, suchen Sie nach HTTP, und wählen Sie es aus.
Geben Sie im Fenster Mit Datenquelle verbinden die Details aus der folgenden Tabelle ein und wählen Sie Weiter aus.
Eigenschaft Wert URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
Verbindung Eine neue Verbindung erstellen Verbindungsname wwisampledata Datengateway Keine Authentifizierungsart Anonym Aktivieren Sie im nächsten Schritt die Binäre Kopie und wählen Sie ZipDeflate (.zip) als Komprimierungstyp aus, da die Quelle eine .zip-Datei ist. Behalten Sie die anderen Felder bei ihren Standardwerten bei und klicken Sie auf Weiter.
Geben Sie im Fenster Verbindung mit Datenziel den Stammordner als Dateien an und klicken Sie auf Weiter. Dadurch werden die Daten in den Files-Abschnitt des Lakehouse geschrieben.
Wählen Sie das Dateiformat Binär für das Ziel aus. Klicken Sie auf Weiter und dann Speichern und Ausführen. Sie können Pipelines planen, um Daten regelmäßig zu aktualisieren. In diesem Tutorial wird die Pipeline nur einmal ausgeführt. Der Datenkopiervorgang dauert ca. 10-15 Minuten.
Sie können die Pipelineausführung und -aktivität auf der Registerkarte Ausgabe überwachen. Sie können auch detaillierte Datenübertragungsinformationen anzeigen, indem Sie das Brillensymbol neben dem Pipelinenamen auswählen, das angezeigt wird, wenn Sie mit dem Mauszeiger auf den Namen zeigen.
Nach der erfolgreichen Ausführung der Pipeline gehen Sie zu Ihrem Lakehouse (wwilakehouse) und öffnen Sie den Explorer, um die importierten Daten anzuzeigen.
Stellen Sie sicher, dass der Ordner WideWorldImportersDW in der Ansicht Explorer vorhanden ist und Daten für alle Tabellen enthält.
Die Daten werden in dem Abschnitt Files des Lakehouse-Explorers erstellt. Ein neuer Ordner mit GUID enthält alle erforderlichen Daten. Umbenennen der GUID in wwi-raw-data
Um inkrementelle Daten in ein Lakehouse zu laden, siehe Inkrementelles Laden von Daten aus einem Data Warehouse in ein Lakehouse.