Compartir a través de


Sección 2: Configuración y registro de los datos

Nota:

El Catálogo de datos de Microsoft Purview está cambiando su nombre a Catálogo unificado de Microsoft Purview. Todas las características permanecerán iguales. Verá el cambio de nombre cuando la nueva experiencia de gobernanza de datos de Microsoft Purview esté disponible con carácter general en su región. Compruebe el nombre en su región.

Si no tiene orígenes de datos disponibles para el examen, puede seguir estos pasos para implementar completamente un ejemplo de Azure Data Lake Stroage (ADLS Gen2).

Sugerencia

Si ya tiene un origen de datos en el mismo inquilino que su cuenta de Microsoft Purview, pase a la siguiente parte de esta sección para examinar los recursos.

En un patrimonio de datos real se encuentran muchos sistemas diferentes en uso para diferentes aplicaciones de datos. Hay entornos de informes como Fabric y Snowflake en los que los equipos usan copias de datos para crear soluciones analíticas y potenciar sus informes y paneles. Hay sistemas de datos operativos que impulsan a los equipos o clientes de las aplicaciones a completar procesos empresariales que recopilan o agregan datos en función de las decisiones tomadas durante el proceso.

Para crear un patrimonio de datos más realista, la recomendación es mostrar muchos orígenes de datos en el catálogo, que pueden cubrir la amplitud de los distintos datos que puede tener cualquier empresa. Los tipos de datos necesarios para impulsar un caso de uso pueden ser muy diferentes con los usuarios empresariales que necesitan informes y paneles, los analistas necesitan dimensiones y hechos conformes para crear informes, científicos de datos o ingenieros de datos necesitan datos de origen sin procesar que proceden directamente del sistema que recopila los datos todos ellos y más permiten a los distintos usuarios ver la importancia de la búsqueda, comprender y acceder a los datos en el mismo lugar.

Para que otros tutoriales agreguen datos a su patrimonio, puede seguir estas guías:

Requisitos previos

  • Suscripción en Azure: Creación de una cuenta gratuita de Azure hoy
  • Microsoft Entra ID para el inquilino: Gobierno de Microsoft Entra ID
  • Una cuenta de Microsoft Purview
    • Administración acceso a la cuenta de Microsoft Purview (este es el valor predeterminado si creó la cuenta de Microsoft Purview. Permisos en la nueva versión preliminar del portal de Microsoft Purview | Microsoft Learn)
  • Todos los recursos; Microsoft Purview, el origen de datos y Microsoft Entra ID deben estar en el mismo inquilino en la nube.

Pasos para configurar el patrimonio de datos

Creación y rellenado de una cuenta de almacenamiento

  1. Siga esta guía para crear una cuenta de almacenamiento: Crear una cuenta de almacenamiento para Azure Data Lake Storage Gen2
  2. Cree contenedores para el nuevo lago de datos:
    1. Vaya a la página Información general de nuestra cuenta de almacenamiento.
    2. Seleccione la pestaña Contenedores en la sección Almacenamiento de datos.
    3. Seleccione el botón + Contenedor.
    4. Asigne un nombre a "bronze" y seleccione el botón Crear .
    5. Repita estos pasos para crear un contenedor "gold"
  3. Descargue algunos datos CSV de ejemplo de data.gov: Covid-19Vacunación y tendencias de casos por grupo de edad, Estados Unidos
  4. Cargue el archivo CSV en el contenedor denominado "bronze" en la cuenta de almacenamiento que creó.
  5. Seleccione el contenedor denominado "bronze" y seleccione el botón Cargar .
  6. Examine la ubicación donde guardó el ARCHIVO CSV y seleccione el archivo Covid-19_Vaccination_Case _Trends .
  7. Seleccione Cargar.

Creación de un Azure Data Factory

En este paso se muestra cómo se mueven los datos entre capas de un lago de datos medallion y se garantiza que los datos están en un formato estandarizado que los consumidores esperarían usar, este es un paso previo para ejecutar Data Quality.

  1. Siga esta guía para crear un Azure Data Factory: Crear un Azure Data Factory

  2. Copie los datos del archivo CSV del contenedor "bronze" en el contenedor "gold" como una tabla de formato Delta mediante esta guía de Azure Data Factory: Transformación de datos mediante un flujo de datos de asignación

  3. Abra la experiencia de Azure Data Factory (ADF) desde el Azure Portal seleccionando el botón Iniciar studio en la pestaña Información general del recurso de ADF creado.

    Captura de pantalla del inicio de ADF Studio desde Azure Portal.

  4. Seleccione la pestaña Autor en ADF Studio.

    Captura de pantalla del autor seleccionado en el menú de navegación izquierdo de Azure Data Factory.

  5. Seleccione el + botón y elija Flujo de datos en el menú desplegable.

    Captura de pantalla del botón para crear un flujo de datos.

  6. Asigne al flujo de datos el nombre "CSVtoDeltaC19VaxTrends".

  7. Seleccione Agregar origen en el cuadro vacío.

    Captura de pantalla de la adición de un origen de datos para el flujo de datos.

  8. Establezca La configuración de origen en:

    1. Nombre del flujo de salida: "C19csv"
    2. Descripción: deje en blanco
    3. Tipo de origen: insertado
    4. Tipo de conjunto de datos insertado: Texto delimitado
    5. Servicio vinculado: seleccione el lago de datos donde almacenó el archivo csv.
  9. Establezca las opciones de origen en:

    1. Modo de archivo: Archivo
    2. Ruta de acceso del archivo: /bronze/ Covid-19_Vaccination_Case _Trends
    3. No se encontró ningún archivo: deje desactivada la opción
    4. Captura de datos modificados: deje desactivada
    5. Tipo de compresión: Ninguno
    6. Codificación: Default(UTF-8)
    7. Delimitador de columna: Coma (,)
    8. Delimitador de filas: Default(\r, \n o\r\n)
    9. Carácter de comillas: comilla doble (")
    10. Carácter de escape: barra diagonal inversa ()
    11. Primera fila como encabezado: CHECKED
    12. Deje el resto como valores predeterminados.
  10. Seleccione el pequeño + Junto al origen creado y seleccione Receptor.

    Captura de pantalla de la creación de un receptor para el flujo de datos.

  11. Cree el receptor donde el formato y la ubicación de los datos que se van a almacenar para mover los datos de un csv en "bronce" a una tabla delta en "gold".

    1. Establezca los valores de Sink (deje todos los valores como predeterminados a menos que se especifique)
    2. Tipo de receptor: insertado
    3. Tipo de conjunto de datos insertado: Delta
    4. Servicio vinculado: el mismo lago de datos que se usa en el origen, porque almacenaremos en un contenedor diferente.
  12. Establezca los valores de Configuración (deje todos los valores como predeterminados a menos que se especifique)

    1. Ruta de acceso de la carpeta: gold/Covid19 Vaccine and Case Trends
  13. Debe escribir el valor porque este nombre es la forma en que queremos almacenar los datos y no existe para seleccionarlos.

  14. Seleccione Validar, esto comprueba el flujo de datos y proporciona instrucciones para corregir los errores.

  15. Seleccione Publicar todo.

    Captura de pantalla de la publicación del flujo de datos.

  16. Seleccione el + botón y seleccione canalización en el menú desplegable.

    Captura de pantalla de la creación de una canalización.

  17. Asigne a la canalización el nombre "CSV to Delta C19 Vax Trends"

  18. Seleccione el flujo de datos creado en los pasos anteriores CSV a Delta (C19VaxTrends) y arrástrelo y colóquelo en la pestaña Abrir canalización.

  19. Seleccione Validar.

  20. Seleccione Publicar.

  21. Seleccione Depurar (usar tiempo de ejecución de actividad) para ejecutar la canalización.

    Captura de pantalla de la ejecución de la canalización para crear una tabla delta.

    Sugerencia

    Si detecta errores de espacios o caracteres inadecuados para el formato delta: abra el archivo CSV descargado y realice correcciones. A continuación, vuelva a cargar y sobrescriba el ARCHIVO CSV en la zona de bronce. A continuación, vuelva a ejecutar la canalización.

  22. Vaya al contenedor gold en el lago de datos y ahora debería ver la nueva tabla Delta creada durante la canalización.

Examen de los recursos

Si no ha examinado los recursos de datos en el Mapa de datos de Microsoft Purview, puede seguir estos pasos para rellenar el mapa de datos.

El análisis de orígenes en el patrimonio de datos recopilará automáticamente los metadatos de los recursos de datos (tablas, archivos, carpetas, informes, etc.) en esos orígenes. Al registrar un origen de datos y crear el examen, se establece la propiedad técnica sobre los orígenes y recursos que se muestran en el catálogo y se asegura de que tiene control sobre quién puede acceder a los metadatos de Microsoft Purview. Al registrar y almacenar orígenes y recursos en el nivel de dominio, se almacenará en el nivel más alto de jerarquía de acceso. Normalmente, es mejor crear algunas colecciones en las que examinará los metadatos del recurso y establecerá la jerarquía de acceso correcta para esos datos.

Si ha elegido usar Microsoft Fabric o SQL, puede usar estas guías para proporcionar acceso:

Registrar el lago de datos y examinar los recursos

  1. En Mapa de datos de Microsoft Purview en la pestaña Dominios, seleccione las asignaciones de roles para el dominio (será el nombre de la cuenta de Microsoft Purview):

    1. Agréguese como administrador del origen de datos y conservador de datos al dominio.
      1. Seleccione el icono de persona junto al rol Administrador del origen de datos.
      2. Busque su nombre tal y como está en Microsoft Entra ID (podría requerir que escriba el nombre completo escrito exactamente tal como está en Microsoft Entra ID).
      3. Seleccione Aceptar.
      4. Repita estos pasos para el conservador de datos.

    Captura de pantalla de la adición de los permisos de acceso necesarios a una colección.

  2. Registre el lago de datos:

    1. Seleccione la pestaña Orígenes de datos .
    2. Seleccione Registrar.
    3. Seleccione el tipo de almacenamiento Azure Data Lake Storage Gen2.

    Captura de pantalla del registro de un origen de datos.

  3. Proporcione los detalles para conectarse:

    1. Suscripción (opcional)
    2. Nombre del origen de datos (este será el nombre del origen de ADLS Gen2)
    3. Colección donde se deben almacenar los metadatos del recurso (opcional)
    4. Seleccione Registrar.
  4. Una vez completado el registro del origen de datos, puede configurar el examen. El registro indica que Microsoft Purview está conectado al origen de datos y lo ha colocado en la colección correcta para la propiedad. A continuación, el examen leerá los metadatos del origen y rellenará los recursos del mapa de datos.

  5. Seleccione el origen que registró en la pestaña orígenes de datos.

    Captura de pantalla de la creación de un examen para el origen de datos.

  6. Seleccione nuevo examen y proporcione los detalles:

    1. Uso del entorno de ejecución de integración predeterminado para este examen
    2. La credencial debe ser MSI de Microsoft Purview (sistema)
    3. El nivel de examen es Detección automática
    4. Seleccione una colección o use el dominio (la colección debe ser la misma colección o una colección secundaria de donde se registró el origen de datos)
    5. Seleccione Continuar.

    Sugerencia

    En este momento, Microsoft Purview probará la conexión para validar que se puede realizar un examen. Si no ha concedido acceso al lector MSI de Microsoft Purview en el origen de datos, se producirá un error. Si no es el propietario del origen de datos o tiene un colaborador de acceso de usuario, se producirá un error en el examen, ya que espera que tenga autorización para crear la conexión.

  7. Ahora solo seleccione el contenedor "gold" donde colocamos la tabla delta en la sección de datos de compilación del tutorial. Esto impedirá el examen de cualquier otro recurso de datos que se encuentra en el almacén de datos.

    1. Si solo tiene una comprobación azul junto a oro, puede dejar las comprobaciones junto a todo, ya que examinará el origen completo y seguirá creando los recursos que usaremos y mucho más.
    2. Seleccione Continuar.
  8. En la pantalla seleccionar un conjunto de reglas de examen, debe usar el conjunto de reglas de examen predeterminado.

  9. Seleccione Continuar.

  10. En Set a scan trigger (Establecer un desencadenador de examen), establecerá la frecuencia del examen para que, a medida que continúe agregando recursos de datos al contenedor gold del lago, seguirá rellenando el mapa de datos. Seleccione Una vez.

  11. Seleccione Continuar.

  12. Seleccione Guardar y ejecutar. Esto creará un examen que solo leerá los metadatos del contenedor gold del lago de datos y rellenará la tabla que usaremos en la Catálogo de datos de Microsoft Purview en las secciones siguientes. Si solo selecciona guardar, no ejecutará el examen y no verá los recursos. Una vez que se ejecute el examen, verá el examen que creó con el estado De última ejecución en cola. Cuando se completen las lecturas del examen, los recursos están listos para la sección siguiente. Esto puede tardar unos minutos o horas en función del número de recursos que tenga en el origen.

Pasos siguientes

Sección 3: Publicación de productos de datos