Tutorial de Lakehouse: Ingesta de datos en el lago
En este tutorial, ingerirá más tablas dimensionales y tablas de hechos de Wide World Importers (WWI) en el lago.
Requisitos previos
- Si no tiene una instancia de Lakehouse, debe crear un lakehouse.
Ingerir datos
En esta sección, usará la actividad Copiar datos de la canalización de Data Factory para ingerir datos de ejemplo de una cuenta de almacenamiento de Azure en la sección Archivos de la instancia de Lakehouse que creó anteriormente.
Seleccione Áreas de trabajo en el panel de navegación izquierdo y, a continuación, seleccione el área de trabajo nueva en el menú Áreas de trabajo. Aparece la vista de elementos del área de trabajo.
En el elemento de menú +Nuevo de la cinta del área de trabajo, seleccione Canalización de datos.
En el cuadro de diálogo Nueva canalización, especifique el nombre como IngestDataFromSourceToLakehouse y seleccione Crear. Se crea y abre una nueva canalización de factoría de datos.
A continuación, configure una conexión HTTP para importar los datos de World Wide Importers de ejemplo en el almacén de lago de datos. En la lista de Nuevos orígenes, seleccione Ver más, busque Http y selecciónelo.
En la ventana Conectar al origen de datos, escriba los detalles de la tabla siguiente y seleccione Siguiente.
Propiedad Valor URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
Connection Crear una nueva conexión Nombre de conexión wwisampledata Puerta de enlace de datos Ninguno Tipo de autenticación Anónimas En el paso siguiente, habilite la copia binaria y elija ZipDeflate (.zip) como tipo de compresión, ya que el origen es un archivo .zip. Mantenga los demás campos en sus valores predeterminados y haga clic en Siguiente.
En la ventana Conectar al destino de datos, especifique la carpeta raíz como Archivos y haga clic en Siguiente. Esto escribirá los datos en la sección Archivos del almacén de lago de datos.
Elija el formato de archivo como Binario para el destino. Haga clic en Siguiente y, a continuación, en Guardar y ejecutar. Puede programar canalizaciones para actualizar los datos de manera periódica. En este tutorial, solo se ejecuta la canalización una vez. El proceso de copia de datos tarda aproximadamente entre 10 y 15 minutos en completarse.
Puede supervisar la ejecución y la actividad de la canalización en la pestaña Salida. También puede ver información detallada de transferencia de datos seleccionando el icono de gafas junto al nombre de la canalización, que aparece al mantener el puntero sobre el nombre.
Después de la ejecución correcta de la canalización, vaya al almacén de lago de datos (wwilakehouse) y abra el explorador para ver los datos importados.
Compruebe que la carpeta WideWorldImportersDW está presente en la vista Explorador y que contiene datos para todas las tablas.
Los datos se crean en la sección Archivos del explorador del almacén de lago de datos. Una nueva carpeta con GUID contiene todos los datos necesarios. Cambie el nombre del GUID a wwi-raw-data
Para cargar datos incrementales en una instancia de LakeHouse, consulte Carga incremental de datos desde un almacenamiento de datos a una instancia de LakeHouse.