Compartir a través de


Tutorial de Lakehouse: Ingesta de datos en el lago

En este tutorial, ingerirá más tablas dimensionales y tablas de hechos de Wide World Importers (WWI) en el lago.

Requisitos previos

Ingerir datos

En esta sección, usará la actividad Copiar datos de la canalización de Data Factory para ingerir datos de ejemplo de una cuenta de almacenamiento de Azure en la sección Archivos de la instancia de Lakehouse que creó anteriormente.

  1. Seleccione Áreas de trabajo en el panel de navegación izquierdo y, a continuación, seleccione el área de trabajo nueva en el menú Áreas de trabajo. Aparece la vista de elementos del área de trabajo.

  2. En el elemento de menú +Nuevo de la cinta del área de trabajo, seleccione Canalización de datos.

    Captura de pantalla que muestra cómo crear una canalización de datos.

  3. En el cuadro de diálogo Nueva canalización, especifique el nombre como IngestDataFromSourceToLakehouse y seleccione Crear. Se crea y abre una nueva canalización de factoría de datos.

  4. A continuación, configure una conexión HTTP para importar los datos de World Wide Importers de ejemplo en el almacén de lago de datos. En la lista de Nuevos orígenes, seleccione Ver más, busque Http y selecciónelo.

    Recorte de pantalla que muestra dónde seleccionar el origen HTTP.

  5. En la ventana Conectar al origen de datos, escriba los detalles de la tabla siguiente y seleccione Siguiente.

    Propiedad Valor
    URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
    Connection Crear una nueva conexión
    Nombre de conexión wwisampledata
    Puerta de enlace de datos Ninguno
    Tipo de autenticación Anónimas

    Recorte de pantalla que muestra los parámetros para configurar la conexión Http.

  6. En el paso siguiente, habilite la copia binaria y elija ZipDeflate (.zip) como tipo de compresión, ya que el origen es un archivo .zip. Mantenga los demás campos en sus valores predeterminados y haga clic en Siguiente.

    Recorte de pantalla que muestra cómo elegir un tipo de compresión.

  7. En la ventana Conectar al destino de datos, especifique la carpeta raíz como Archivos y haga clic en Siguiente. Esto escribirá los datos en la sección Archivos del almacén de lago de datos.

    Recorte de pantalla que muestra la configuración de conexión de destino del almacén de lago de datos.

  8. Elija el formato de archivo como Binario para el destino. Haga clic en Siguiente y, a continuación, en Guardar y ejecutar. Puede programar canalizaciones para actualizar los datos de manera periódica. En este tutorial, solo se ejecuta la canalización una vez. El proceso de copia de datos tarda aproximadamente entre 10 y 15 minutos en completarse.

    Recorte de pantalla que muestra el formato de archivo de destino.

  9. Puede supervisar la ejecución y la actividad de la canalización en la pestaña Salida. También puede ver información detallada de transferencia de datos seleccionando el icono de gafas junto al nombre de la canalización, que aparece al mantener el puntero sobre el nombre.

    Recorte de pantalla que muestra el estado de la actividad de canalización de copia.

  10. Después de la ejecución correcta de la canalización, vaya al almacén de lago de datos (wwilakehouse) y abra el explorador para ver los datos importados.

    Recorte de pantalla que muestra cómo navegar al almacén de lago de datos.

  11. Compruebe que la carpeta WideWorldImportersDW está presente en la vista Explorador y que contiene datos para todas las tablas.

    Captura de pantalla que muestra cómo se copian los datos de origen en el explorador de Lakehouse.

  12. Los datos se crean en la sección Archivos del explorador del almacén de lago de datos. Una nueva carpeta con GUID contiene todos los datos necesarios. Cambie el nombre del GUID a wwi-raw-data

Para cargar datos incrementales en una instancia de LakeHouse, consulte Carga incremental de datos desde un almacenamiento de datos a una instancia de LakeHouse.

Paso siguiente