Procedimientos recomendados para la implementación de Microsoft Purview para el análisis a escala de la nube
La zona de aterrizaje de administración de datos es responsable de la gobernanza de la plataforma de análisis a escala de la nube. Se basa en Microsoft Purview para proporcionar la mayoría de las funcionalidades de administración de datos.
Nota:
En esta sección de la guía explica configuraciones específicas para el análisis a escala de la nube. Reúne una serie de procedimientos recomendados de Azure para mejorar la gobernanza de los datos mediante Microsoft Purview. La guía complementa la documentación de Microsoft Purview.
Información general
Microsoft Purview es un servicio unificado de gobernanza de datos que le ayuda a administrar y gobernar los datos locales, de varias nubes y de software como servicio (SaaS). Cree un mapa holístico actualizado del panorama de sus datos con detección automatizada de datos, clasificación de datos confidenciales y linaje de datos de principio a fin. Habilite los conservadores de datos para administrar y proteger su patrimonio de datos. Permita a los consumidores de datos encontrar datos valiosos y confiables.
Sugerencia
Se recomienda usar herramientas de terceros de su elección para integrar las funcionalidades restantes de la zona de aterrizaje de administración de datos con Azure que actualmente no son compatibles con Microsoft Purview.
Una cuenta de Microsoft Purview se implementa dentro de la zona de aterrizaje de administración de datos, que actúa como un catálogo de datos centralizado. Desde la zona de aterrizaje de administración de datos, Microsoft Purview puede comunicarse con cada zona de aterrizaje de datos a través de la conectividad de red privada mediante el emparejamiento de VNet entre la administración de datos, las zonas de aterrizaje de datos y los entornos de ejecución de integración autohospedados. La detección de productos de datos en almacenes de datos locales y otras nubes públicas se logra mediante más implementaciones de entornos de ejecución de integración autohospedados.
Configuración de la cuenta
El primer paso es la implementación de una cuenta de Microsoft Purview. Durante la implementación de la zona de aterrizaje de administración de datos, se implementa automáticamente una única cuenta de Microsoft Purview dentro de la suscripción de administración de datos. El objetivo es centralizar todo el mapa de datos en una sola cuenta de Microsoft Purview en todas las zonas de aterrizaje de datos. Se recomienda considerar una única cuenta compartida de Microsoft Purview dentro de la suscripción de la zona de aterrizaje de administración de datos por tipo de entorno.
Además de la cuenta de Microsoft Purview, también se implementa un grupo de recursos administrado. Una cuenta de almacenamiento administrada y un espacio de nombres Event Hubs administrado se implementan dentro de este grupo de recursos y se usan para ingerir los metadatos a través de exámenes. Dado que el catálogo de Microsoft Purview consume estos recursos, no se deben quitar. Se agrega automáticamente una asignación de denegación de RBAC de control de acceso basado en rol de Azure para todas las entidades de seguridad en el nivel de grupo de recursos en el momento de la implementación.
Requisitos previos
Antes de la implementación, revise los siguientes requisitos dentro de la suscripción de la zona de aterrizaje de administración de datos:
- Creación de exenciones de directiva: si tiene una asignación de Azure Policy existente que impide que los administradores o aplicaciones creen cuentas de Azure Storage, un espacio de nombres de Azure Event Hubs, cuentas de Microsoft Purview, zonas de Azure DNS privado o puntos de conexión privados de Azure, debe aplicar exenciones de Azure Policy. Las exenciones son obligatorias, por lo que los recursos necesarios se pueden implementar en la zona de aterrizaje de administración de datos, junto con la implementación de Microsoft Purview.
- Registro de proveedores de recursos: asegúrese de registrar los siguientes proveedores de recursos de Azure en la suscripción de la zona de aterrizaje de administración de datos:
Microsoft.EventHub
Microsoft.Purview
Microsoft.Storage
Importante
Para implementar correctamente la zona de aterrizaje de administración de datos con Microsoft Purview, se deben cumplir los requisitos previos. Para más información sobre cómo registrar proveedores de recursos, consulte Proveedores de recursos para servicios de Azure.
Redes y resolución de nombres
El análisis a escala de la nube usa un punto de conexión privado de Azure para habilitar el acceso seguro al catálogo con tecnología de Azure Private Link. El punto de conexión privado usa direcciones IP del espacio de direcciones de la red virtual para la cuenta de Microsoft Purview. El tráfico de red entre los clientes de la red virtual y la cuenta de Microsoft Purview atraviesa la red virtual y un Private Link de la red troncal de Microsoft. La red virtual y Private Link eliminan la exposición de la red pública de Internet. Para habilitar el aislamiento de red para escenarios de examen de un extremo a otro, se implementan más puntos de conexión privados. Los puntos de conexión privados permiten que los orígenes de datos de Azure y los orígenes locales se conecten a través de Azure Private Link.
Implementación de un punto de conexión privado de Azure
La cuenta de Microsoft Purview se implementa dentro de la red virtual de Azure dentro de la zona de aterrizaje de administración de datos con varios puntos de conexión privados:
Cuenta: se usa un punto de conexión privado para permitir solo las llamadas de cliente a Microsoft Purview que se originan desde la red privada. Es necesario como requisito previo para un punto de conexión privado del portal.
Portal: el objetivo de un punto de conexión privado es proporcionar conectividad privada al portal de gobernanza de Microsoft Purview. El portal de gobernanza de Microsoft Purview es la interfaz de usuario de administración con el que se puede acceder a Microsoft Purview y administrarlo desde un explorador web.
Ingesta: puntos de conexión privados para examinar los orígenes de datos de IaaS y PaaS de Azure en Azure Virtual Network y los orígenes de datos locales mediante una conexión privada. Este método garantiza el aislamiento de red de los metadatos que fluyen desde los orígenes de datos al Mapa de datos de Microsoft Purview.
Importante
Para examinar correctamente los orígenes de datos en Microsoft Purview, se debe implementar un entorno de ejecución de integración autohospedado dentro de la misma red virtual en la que se implementan los puntos de conexión privados de ingesta de Microsoft Purview, que pueden estar dentro de la zona de aterrizaje de administración de datos o de cualquier zona de aterrizaje de datos.
Para más información sobre las redes de la zona de aterrizaje de administración de datos, consulte Redes de análisis a escala de la nube (Cloud-scale analytics networking).
Para obtener más información sobre los puntos de conexión privados de Microsoft Purview, vea Uso de puntos de conexión privados para la cuenta de Microsoft Purview.
Punto de conexión privado para cuenta y portal
Para administrar el patrimonio de datos mediante Microsoft Purview y conectarse al portal de gobernanza de Microsoft Purview, debe usar la conectividad privada. El acceso público está restringido a la cuenta de Microsoft Purview que se implementa dentro de la zona de aterrizaje de administración de datos para agregar más seguridad. Los puntos de conexión privados de la cuenta y del portal se implementan para proporcionar conectividad privada a la cuenta de Microsoft Purview y acceso al portal de gobernanza de Microsoft Purview.
Acceso al portal de gobernanza de Microsoft Purview
Para mantener el uso del portal de Microsoft Purview a través de la conectividad privada, se recomienda denegar el acceso a la red pública en la configuración de Microsoft Purview. Para conectarse al portal de gobernanza de Microsoft Purview se necesita una máquina de salto o jumpbox que se implementa dentro de la red. Puede usar una máquina desde la red híbrida o como una máquina virtual dentro de la zona de aterrizaje de administración de datos. Una máquina de salto es un servidor de acceso remoto protegido que suele utilizar el software de Servicios de Escritorio remoto o Secure Shell (SSH) de Microsoft. Las máquinas de salto actúan como peldaño para los administradores que acceden a sistemas críticos, donde todas las acciones administrativas se realizan desde el host dedicado.
Elija una de las siguientes opciones para administrar los datos con Microsoft Purview a través del portal de gobernanza de Microsoft Purview:
Opción 1: use una máquina de salto conectada a la red corporativa. Para usar este modelo de conectividad, es preciso que haya conectividad entre la red virtual en la que se crea el punto de conexión privado del portal de Microsoft Purview y la red corporativa.
Revise la red de Cloud Adoption Framework para obtener más información sobre la topología de red y la conectividad.
Opción 2: si la conectividad híbrida no está disponible en la organización, implemente una máquina virtual dentro de la zona de aterrizaje de administración de datos. Implemente Azure Bastion para conectarse a Microsoft Purview mediante una conexión segura.
Puntos de conexión privados para la ingesta
Microsoft Purview puede examinar orígenes de datos en Azure o en entornos locales mediante puntos de conexión privados o públicos. La red de una zona de aterrizaje de datos se empareja automáticamente con la red virtual de la zona de aterrizaje de administración de datos y la red virtual de suscripción de conectividad. Por lo tanto, los orígenes de datos dentro de las zonas de aterrizaje de datos se pueden examinar mediante conectividad privada.
Se recomienda habilitar puntos de conexión privados para otros orígenes de datos dentro de las zonas de aterrizaje y examinar orígenes de datos mediante conectividad privada.
Resolución de nombres
La resolución DNS de los puntos de conexión privados debe controlarse a través de las zonas DNS privadas centrales de Azure. Las siguientes zonas DNS privadas se implementan automáticamente en la implementación de Microsoft Purview en la zona de aterrizaje de administración de datos:
privatelink.purview.azure.com
privatelink.purviewstudio.azure.com
privatelink.blob.core.windows.net
privatelink.queue.core.windows.net
privatelink.servicebus.windows.net
Si tiene una nube híbrida y se requiere una resolución de nombres entre locales, es importante configurar correctamente los servidores DNS locales para reenviar las solicitudes adecuadas al servidor DNS personalizado en Azure.
Si ya tiene DNS personalizado en Azure, debe configurar reenviadores condicionales en el servidor DNS local que apunta a él.
Si no tiene una máquina virtual DNS personalizada en Azure, puede implementar el conjunto de escalado de máquinas virtuales de Azure que incluye NGINX ya configurado para reenviar solicitudes DNS a la dirección IP de DNS
168.63.129.16
proporcionada por Azure. Para más información, consulte Implementación del conjunto de escalado de máquinas virtuales de un proxy DNS NGINX en una red virtual existente.
Sugerencia
Para permitir la resolución de nombres entre la zona de aterrizaje de administración de datos y las zonas de aterrizaje de datos, use las mismas zonas DNS privadas ubicadas dentro del grupo de recursos {prefix}-global-dns
dentro de la zona de aterrizaje de administración de datos.
Podrá encontrar más información relacionada con las redes de análisis a escala de la nube en Redes de análisis a escala de la nube (Cloud-scale analytics networking)
Administración de la autenticación de orígenes de datos en Microsoft Purview
Microsoft Purview requiere acceso al plano de control y al plano de datos para registrar y examinar orígenes de datos.
Registrar orígenes de datos
Al implementar la cuenta de Microsoft Purview, se crea automáticamente una identidad administrada asignada por el sistema. Se crea en el inquilino de Microsoft Entra y se asigna a este recurso. Para leer y enumerar los recursos de Azure en una suscripción o grupo de recursos al registrar orígenes de datos en Microsoft Purview, la identidad administrada de Microsoft Purview requiere el rol de lector de RBAC de Azure en el ámbito.
Considere la posibilidad de asignar el rol de Lector a la identidad administrada de Microsoft Purview en cada suscripción de zona de aterrizaje de datos antes de registrar cualquiera de estos orígenes de datos en Microsoft Purview:
- Azure Blob Storage
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage Gen2
- Azure SQL Database
- Instancia administrada de Azure SQL
- Azure Synapse Analytics
Examen de los orígenes de datos de Azure
Antes de ejecutar nuevos exámenes, asegúrese de que ha completado los siguientes requisitos:
Implementación y registro de entornos de ejecución de integración autohospedados
Implemente y registre máquinas virtuales de entornos de ejecución de integración autohospedados (IR) para cada zona de aterrizaje de datos. Las instancias de IR autohospedado son necesarias para examinar orígenes de datos como Azure SQL Database o cualquier origen de datos basado en máquina virtual. Estos orígenes de datos pueden ser locales o en cada una de las zonas de aterrizaje de datos. Un IR autohospedado puede ejecutar actividades de copia entre un almacén de datos en la nube y un almacén de datos en una red privada. También puede distribuir las siguientes actividades de transformación frente a los recursos de proceso en una red local o en Azure Virtual Network. La instalación de un IR autohospedado debe realizarse en una máquina local o en una máquina virtual dentro de una red privada.
Sugerencia
Se recomienda usar una máquina dedicada para hospedar el IR. La máquina debe ser independiente del servidor que hospeda el almacén de datos. Además, se recomienda encarecidamente planear al menos dos máquinas virtuales de IR autohospedado en cada zona de aterrizaje de datos o entorno local.
Para examinar los orígenes de datos locales, las instancias de IR autohospedado se pueden implementar dentro de la red local; sin embargo, para examinar los orígenes de datos ubicados en Azure, las instancias de IR autohospedado se deben implementar en la misma red virtual que los puntos de conexión privados de ingesta de Microsoft Purview. Se recomienda implementar nuevos puntos de conexión privados de ingesta y nuevas instancias de IR autohospedado por cada región en la que se encuentran los orígenes de datos.
Es posible que desee hospedar una carga de trabajo simultánea creciente. O bien, puede que desee conseguir un mayor rendimiento en el nivel de carga de trabajo actual. Puede mejorar la escala de procesamiento mediante uno de estos enfoques:
- Escalado vertical cuando el procesador y la memoria del nodo estén infrautilizados
- Escalado horizontal del IR autohospedado mediante la adición de más nodos o conjuntos de escalado de máquinas virtuales
Asignación de acceso al plano de datos para examinar orígenes de datos
Para proporcionar acceso a Microsoft Purview en el plano de datos y a los orígenes de datos, hay varias opciones para configurar la autenticación:
- Opción 1: identidad administrada
- Opción 2: clave de cuenta o contraseñas almacenadas en Azure Key Vault en forma de secreto
- Opción 3: entidad de servicio almacenada en Azure Key Vault en forma de secreto
Importante
Para examinar orígenes de datos mediante Azure Private Link en Microsoft Purview, debe implementar un entorno de ejecución de integración autohospedado y usar la clave de cuenta o autenticación de SQL o la entidad de servicio de las opciones de autenticación en orígenes de datos.
Sugerencia
Cuando un origen de datos no puede usar Azure Private Link, se recomienda usar la identidad administrada de Microsoft Purview para examinar los orígenes de datos. En este caso, debe permitir el acceso público en la configuración del firewall de la cuenta de Microsoft Purview.
Almacenamiento de secretos en Azure Key Vault
Varias instancias de Azure Key Vault se implementan dentro de la zona de aterrizaje de administración de datos y las suscripciones de la zona de aterrizaje de datos. Los recursos de Azure Key Vault almacenan secretos relacionados con los orígenes de datos de metadatos en la zona de aterrizaje de administración de datos y los orígenes de datos. Un ejemplo de un origen de datos es Azure SQL Database consumido por Azure Data Factory. O Azure Database for MySQL usado por las áreas de trabajo de Databricks en la zona de aterrizaje de datos.
Conexión de almacenes de claves de Azure de las zonas de aterrizaje de datos a la cuenta de Microsoft Purview
Microsoft Purview puede usar los secretos y las credenciales almacenados en almacenes de claves de Azure. Solo se pueden usar si crea la conexión de Azure Key Vault dentro de la cuenta de Microsoft Purview y el secreto está registrado. Después de agregar una nueva zona de aterrizaje de datos, debe crear una nueva conexión de Azure Key Vault dentro de la cuenta de Microsoft Purview. La conexión es una asociación uno a uno del recurso Azure Key Vault con la cuenta de Microsoft Purview. Permitirá la creación de credenciales dentro de la cuenta de Microsoft Purview en función de los secretos almacenados en Azure Key Vault.
Para más información, consulte Creación de conexiones de Azure Key Vault en la cuenta de Microsoft Purview.
Sugerencia
Quite los almacenes de claves de Azure que no se usan para minimizar las conexiones de Key Vault.
Creación de credenciales dentro de Microsoft Purview
Puede que necesite configurar una credencial mediante un secreto del almacén de claves para escenarios específicos:
- Para examinar los orígenes de datos en los que la identidad administrada de Microsoft Purview no se puede usar como método de autenticación.
- Para examinar cualquier origen de datos mediante un entorno de ejecución de integración autohospedado, los tipos de autenticación admitidos, como las claves de cuenta, la autenticación de SQL (contraseña) o la entidad de servicio, deben almacenarse en una credencial.
- Para examinar orígenes de datos mediante un punto de conexión privado para la ingesta de datos.
- Para examinar orígenes de datos que están dentro de una máquina virtual o dentro de un entorno local.
Antes de crear credenciales en Microsoft Purview, la cuenta de Microsoft Purview debe tener acceso a los secretos de Azure Key Vault. Use el control de acceso basado en rol (RBAC) o la directiva de acceso de Azure Key Vault para conceder a la identidad de servicio administrada (MSI) de Microsoft Purview el acceso necesario. Para obtener más información sobre cómo conceder a MSI de Microsoft Purview acceso a Azure Key Vault y crear credenciales dentro de Microsoft Purview, consulte Credenciales para la autenticación de origen en Microsoft Purview.
Roles y control de acceso de Microsoft Purview
Microsoft Purview tiene varios roles integrados, como Lector de datos, Conservador de datos, Administrador de colecciones y Administrador de orígenes de datos y Autor de políticas, para administrar el plano de datos, que se pueden combinar para conceder más privilegios. Por ejemplo, el rol Lector de datos está destinado a roles como responsables de datos, administradores de datos y directores de seguridad que requieren acceso de solo lectura al patrimonio de datos. El patrimonio de datos puede incluir clasificaciones, linajes a través de opciones de búsqueda e informes disponibles en Microsoft Purview.
Una vez completada la implementación de la zona de aterrizaje de administración de datos, use el modelo de privilegios mínimos para proporcionar acceso para ver o administrar metadatos en Microsoft Purview.
Importante
Los roles del plano de datos de Microsoft Purview se deben administrar dentro del portal de gobernanza de Microsoft Purview o mediante la API directamente.
Para obtener más información sobre los roles de Microsoft Purview, vea Control de acceso en el plano de datos de Microsoft Purview
Roles recomendados de Microsoft Purview
Revise la siguiente lista de personas implicadas en una implementación de análisis a escala de la nube. Asígneles los roles de Microsoft Purview pertinentes para que puedan contribuir en el éxito de la implementación:
Persona | Rol | Rol recomendado de Microsoft Purview |
---|---|---|
Propietarios de productos | Los propietarios de productos usan Azure para transformar sus soluciones, aportar agilidad a la empresa y optimizar los procesos empresariales. | Lector de datos |
Arquitectos de soluciones | Defina soluciones para impulsar a través de los límites de la red empresarial. Aprenda a tratar el diagnóstico, el análisis, el diseño, la implementación y la integración de los servicios de Azure. | |
Desarrollador e ingenieros de DevOps | Diseñe, compile, implemente, pruebe y mantenga el proceso de integración y entrega continuas con Azure DevOps o GitHub. | No aplicable |
Ingenieros de seguridad | Permita que los equipos diseñen e implementen una infraestructura segura en Azure mediante procedimientos recomendados. | |
Administradores técnicos y empresariales | Compile un reconocimiento general de los servicios de Azure. Controle los costos en la nube y optimice las operaciones y la agilidad del equipo. | No aplicable |
Responsables de la toma de decisiones y usuarios de negocios | Use Azure para acceder a información accionable, esperando que se entregue en la forma más pertinente. Use la inteligencia artificial integrada en soluciones existentes para optimizar los procesos empresariales. | Lector de datos |
Administradores de datos | Responsable del aprovisionamiento y administración del acceso a los recursos de datos. | Lector de datos o Conservador de datos |
Analistas de datos y analistas de rendimiento | Use Azure para detectar y compartir nuevas conclusiones de recursos de datos existentes o datos ad hoc. Cree transformaciones de IA con un solo clic, consuma modelos precompilados y genere fácilmente modelos de aprendizaje automático. | |
Ingenieros de datos | Use Azure para compilar, integrar y administrar datos y productos de análisis. Cree aplicaciones y soluciones habilitadas para IA cuando corresponda. | |
Científicos de datos ciudadanos | Cree modelos de aprendizaje automático a través de eficaces herramientas visuales, de arrastrar y colocar, sin código cuando no se necesita codificación | |
Científicos de datos | Use sus herramientas y marcos de aprendizaje automático preferidos para crear soluciones de ciencia de datos escalables. Acelere el ciclo de vida del aprendizaje automático de un extremo a otro. | |
Ingenieros de aprendizaje automático | Habilite los procesos e infraestructura adecuados para facilitar la implementación y la administración de modelos. |
Para obtener más información sobre los roles de datos, consulte Roles y equipos.
Pasos siguientes
Azure Machine Learning como producto de datos para el análisis a escala de la nube