Registro de datos de Azure Data Lake Storage Gen1 en Azure Data Catalog
En este artículo, obtendrá información sobre cómo integrar Azure Data Lake Storage Gen1 con Azure Data Catalog para hacer que los datos sean reconocibles dentro de una organización mediante la integración con Data Catalog. Para más información sobre la catalogación de datos, consulte ¿Qué es Azure Data Catalog?. Para saber en qué escenarios se puede utilizar Data Catalog, consulte Escenarios comunes de Azure Data Catalog.
Prerrequisitos
Antes de empezar este tutorial, debe contar con lo siguiente:
Una suscripción de Azure. Consulte Obtención de una versión de evaluación gratuita.
Habilite su suscripción a Azure para Data Lake Storage Gen1. Consulte las instrucciones.
Cuenta de Data Lake Storage Gen1. Siga las instrucciones de Introducción a Azure Data Lake Storage Gen1 con Azure Portal. Para este tutorial, cree una cuenta de Data Lake Storage Gen1 denominada datacatalogstore.
Una vez creada la cuenta, cargue un conjunto de datos de ejemplo en ella. En este tutorial, vamos a cargar todos los archivos .csv en la carpeta AmbulanceData del repositorio Git de Azure Data Lake. Puede utilizar varios clientes, como el explorador de Azure Storage, para cargar datos en un contenedor de blobs.
Azure Data Catalog. Su organización ya debe tener un Azure Data Catalog creado. Se permite solo un catálogo por cada organización.
Registro de Data Lake Storage Gen1 como origen para Data Catalog
Vaya a
https://azure.microsoft.com/services/data-catalog
y haga clic en Iniciado.Inicie sesión en el portal de Azure Data Catalog y haga clic en Publicar datos.
En la siguiente página, haga clic en Iniciar aplicación. Esto descargará el archivo de manifiesto de la aplicación en el equipo. Haga doble clic en este archivo para iniciar la aplicación.
En la página principal, haga clic en Iniciar sesióny escriba sus credenciales.
En la página Seleccionar un origen de datos, seleccione Azure Data Lake Store y, a continuación, haga clic en Siguiente.
En la siguiente página, proporcione el nombre de la cuenta de Data Lake Storage Gen1 que quiere registrar en Data Catalog. Deje las demás opciones con el valor predeterminado y, a continuación, haga clic en Conectar.
La página resultante se puede dividir en los siguientes segmentos.
a. El cuadro Jerarquía de servidor representa la estructura de carpetas de la cuenta de Data Lake Storage Gen1. $Root representa la raíz de la cuenta de Data Lake Storage Gen1 y AmbulanceData representa la carpeta creada en la raíz de dicha cuenta.
b. El cuadro Objetos disponibles muestra los archivos y carpetas de la carpeta AmbulanceData.
c. En el cuadro Objetos que se registrarán se enumeran los archivos y las carpetas que quiere registrar en Azure Data Catalog.
Para este tutorial, deberá registrar todos los archivos del directorio. Para ello, haga clic en el botón () para mover todos los archivos al cuadro Objetos que se registrarán.
Dado que los datos se registrarán en un catálogo de datos de toda la organización, es recomendable agregar algunos metadatos que podrá usar posteriormente para localizar rápidamente los datos. Por ejemplo, puede agregar una dirección de correo electrónico del propietario de los datos (por ejemplo, la persona que está cargando los datos) o agregar una etiqueta para identificar los datos. En la captura de pantalla siguiente se muestra una etiqueta que ha agregado a los datos.
Haga clic en Registrar.
La captura de pantalla siguiente indica que los datos se han registrado correctamente en el Catálogo de datos.
Haga clic en Ver portal para volver atrás al portal del Catálogo de datos y comprobar que ya puede acceder a los datos registrados desde el portal. Para realizar búsquedas en los datos, puede utilizar la etiqueta que usó al registrar los datos.
Ahora ya puede realizar operaciones como agregar anotaciones y documentación a los datos. Para más información, consulte los vínculos siguientes: