Tutorial de Lakehouse: Ingesta de datos en el lago
En este tutorial, ingerirá más tablas dimensionales y tablas de hechos de Wide World Importers (WWI) en el lago.
Requisitos previos
- Si no tiene una instancia de Lakehouse, debe crear un lakehouse.
Ingerir datos
En esta sección, usará la actividad Copiar datos de la canalización de Data Factory para ingerir datos de ejemplo de una cuenta de almacenamiento de Azure en la sección Archivos de la instancia de Lakehouse que creó anteriormente.
Seleccione Áreas de trabajo en el panel de navegación izquierdo y, a continuación, seleccione el área de trabajo nueva en el menú Áreas de trabajo. Aparece la vista de elementos del área de trabajo.
En el elemento de menú +Nuevo de la cinta del área de trabajo, seleccione Canalización de datos.
En el cuadro de diálogo Nueva canalización, especifique el nombre como IngestDataFromSourceToLakehouse y seleccione Crear. Se crea y abre una nueva canalización de factoría de datos.
En la canalización de factoría de datos recién creada, seleccione Actividad de canalización para agregar una actividad a la canalización y seleccione Copiar datos. Esta acción agrega actividad de copia de datos al lienzo de la canalización.
Seleccione la actividad de copia de datos recién agregada en el lienzo. Las propiedades de actividad aparecen en un panel debajo del lienzo (es posible que tenga que expandir el panel hacia arriba arrastrando el borde superior). En la pestaña General del panel de propiedades, escriba Copia de datos al lakehouse en el campo Nombre.
En la pestaña Origen de la actividad de copia de datos seleccionada, seleccione Externo como Tipo de almacén de datos y, a continuación, seleccione + Nuevo para crear una nueva conexión al origen de datos.
En este tutorial, todos los datos de ejemplo están disponibles en un contenedor público de Azure Blob Storage. Se conecta a este contenedor para copiar datos de él. En la primera pantalla de Nueva conexión, seleccione Azure Blob Storage y, después, seleccione Continuar.
En la pantalla Ajustes de conexión, escriba los detalles siguientes y seleccione Crear para crear la conexión al origen de datos.
Propiedad Valor URL o nombre de cuenta https://azuresynapsestorage.blob.core.windows.net/sampledata
Connection Crear una nueva conexión Nombre de conexión wwisampledata Tipo de autenticación Anónimas Una vez creada la nueva conexión, vuelva a la pestaña Origen de la actividad de copia de datos y la conexión recién creada estará seleccionada de forma predeterminada. Especifique las siguientes propiedades antes de pasar a la configuración de destino.
Propiedad Valor Tipo de almacén de datos Externo Conexión wwisampledata Tipo de ruta de acceso de archivo Ruta de archivo Ruta de archivo Nombre del contenedor (primer cuadro de texto): sampledata
Nombre del directorio (segundo cuadro de texto): WideWorldImportersDW/parquetRecursively Activada Formato de archivo Binario En la pestaña Destino de la actividad de copia de datos seleccionada, especifique las siguientes propiedades:
Propiedad Valor Tipo de almacén de datos Área de trabajo Tipo de banco de datos de área de trabajo Lakehouse Lakehouse wwilakehouse Carpeta raíz Archivos Ruta de archivo Nombre del directorio (primer cuadro de texto): wwi-raw-data Formato de archivo Binario Ha configurado la actividad de copia de datos. Seleccione el icono de Guardar de la cinta superior (en Inicio) para guardar los cambios y seleccione Ejecutar para ejecutar la canalización y su actividad. También puede programar canalizaciones para actualizar los datos a intervalos definidos para satisfacer los requisitos empresariales. Para este tutorial, ejecutamos la canalización solo una vez haciendo clic en Ejecutar.
Esta acción desencadena la copia de datos del origen de datos subyacente al lago especificado y puede tardar hasta un minuto en completarse. Puede supervisar la ejecución de la canalización y su actividad en la pestaña Salida, que aparece al hacer clic en cualquier lugar del lienzo. Opcionalmente, puede seleccionar el icono de gafas, que aparece al mantener el puntero sobre el nombre, para ver los detalles de la transferencia de datos.
Una vez copiados los datos, vaya a la vista de elementos del área de trabajo y seleccione el nuevo lakehouse (wwilakehouse) para iniciar la vista Explorador.
Compruebe que en la vista Explorador aparece una nueva carpeta, wwi-raw-data, y que se han copiado allí los datos de todas las tablas.
Para cargar datos incrementales en una instancia de LakeHouse, consulte Carga incremental de datos desde un almacenamiento de datos a una instancia de LakeHouse.