Introducción a Azure Data Lake Storage para el análisis en la nube
El lago de datos de Azure es un almacenamiento de datos seguro y que se pueden escalar de forma masiva para cargas de trabajo de análisis de alto rendimiento. Puede crear cuentas de almacenamiento dentro de un único grupo de recursos para el análisis a escala de la nube. Se recomienda aprovisionar tres cuentas de Azure Data Lake Storage Gen2 en un único grupo de recursos, de forma similar al grupo de recursos storage-rg
descrito en Introducción a la zona de aterrizaje de datos de arquitectura del escenario de análisis y administración de datos de Azure.
Cada cuenta de almacenamiento dentro de su zona de aterrizaje de datos almacena datos en una de tres etapas, que se alinean con una arquitectura medallón:
- Datos sin procesar (bronce)
- Datos enriquecidos (plata) y curados (oro)
- Lago de datos de desarrollo
Una aplicación de datos puede consumir datos enriquecidos y mantenidos de una cuenta de almacenamiento que se ha ingerido un servicio de ingesta independiente de datos automatizado. Puede crear una aplicación de datos alineada con el origen si no implementa el motor independiente de datos o facilita conexiones complejas para ingerir datos de orígenes operativos. Esta aplicación de datos sigue el mismo flujo que un motor independiente de datos al ingerir datos de orígenes de datos externos.
Data Lake Storage Gen2 admite listas de control de acceso (ACL) específicas que protegen los datos en los niveles de archivo y carpeta. Las listas de control de acceso pueden ayudar a su organización a implementar medidas de seguridad estrictas para la autenticación y autorización de productos de datos para:
- Almacene los datos de forma segura a través del cifrado en reposo.
- Controles de acceso para usuarios y grupos de seguridad de Microsoft Entra a través de la integración de Microsoft Entra.
Planeamiento del lago de datos
Cuando planifique un lago de datos, tenga en cuenta siempre la consideración adecuada para estructura, gobernanza y seguridad. Varios factores influyen en la estructura y la organización de cada lago de datos:
- El tipo de datos almacenados
- Cómo se transforman sus datos
- Quién accede a sus datos
- Cuáles son sus patrones de acceso típicos
Grupo de consumidores y productores en función de sus necesidades de acceso a los datos. Es una buena idea planificar la implementación y la gobernanza del control de acceso en el lago de datos.
Si su lago de datos contiene algunos recursos de datos y procesos automatizados como la descarga de extracción, transformación, carga (ETL), es probable que su planteamiento sea bastante fácil. Si su lago de datos contiene cientos de activos de datos e implica una interacción automatizada y manual, prevea dedicar más tiempo a la planificación, ya que necesitará mucha más colaboración de los propietarios de los datos.
Analogía del pantano de datos
Un pantano de datos es un lago de datos no gestionado que es casi inaccesible para los usuarios. Los pantanos de datos se producen cuando no se implementan medidas de calidad y gobernanza de datos. A veces puede ver un pantano de datos en un almacenamiento de datos con modelos híbridos existentes.
La gobernanza y la organización adecuadas impiden los pantanos de datos. Al crear una base sólida para el lago de datos, aumenta la probabilidad de éxito sostenido del lago de datos y el valor empresarial.
A medida que crecen el tamaño, la complejidad, el número de activos de datos y el número de usuarios o departamentos de su lago de datos, es cada vez más importante contar con un sistema de catálogo de datos sólido. Su sistema de catálogo de datos garantiza que sus usuarios puedan buscar, etiquetar y clasificar datos mientras procesan, consumen y gobiernan su lago de datos.
Para más información, consulte Resumen de la gobernanza de datos.
Cuentas de almacenamiento en un lago de datos lógico
Tenga en cuenta si su organización necesita una o varias cuentas de almacenamiento y tenga en cuenta qué sistemas de archivos necesita para crear el lago de datos lógico. La tecnología de almacenamiento único proporciona varios métodos de acceso a datos y le ayuda a estandarizar en toda la organización.
Data Lake Storage Gen2 es un servicio totalmente administrado de plataforma como servicio (PaaS). Varias cuentas de almacenamiento o sistemas de archivos no pueden incurrir en un costo monetario hasta que se accede a los datos o se almacenan. Cada recurso de Azure tiene una sobrecarga administrativa y operativa durante el aprovisionamiento, la seguridad y la gobernanza, incluidas las copias de seguridad y la recuperación ante desastres.
Nota:
En cada zona de aterrizaje de datos se muestran tres lagos de datos. Sin embargo, en función de sus requisitos, es posible que pueda consolidar las capas sin procesar, enriquecidas y seleccionadas en una cuenta de almacenamiento. Puede crear otra cuenta de almacenamiento denominada «desarrollo», donde los consumidores de datos pueden aportar otros productos de datos útiles.
Tenga en cuenta los siguientes factores al decidir entre un enfoque consolidado o de tres cuentas de almacenamiento:
- Aislamiento de entornos de datos y predictibilidad
- Puede aislar las actividades que se ejecutan en las zonas raw y de desarrollo para evitar posibles efectos en la zona curada, que contiene datos de gran valor empresarial necesarios para la toma de decisiones críticas.
- Características y funcionalidad en el nivel de la cuenta de almacenamiento
- Puede elegir si las opciones de administración del ciclo de vida o las reglas de firewall deben aplicarse en la zona de aterrizaje de datos o en el nivel del lago de datos.
- Cree varias cuentas de almacenamiento, pero no silos no deseados.
- Evite la duplicación de proyectos de datos por falta de visibilidad o de intercambio de conocimientos en su organización.
- Asegúrese de que tiene una buena gobernanza de datos, herramientas de seguimiento de proyectos y un catálogo de datos implementado.
- Interacción de las herramientas y tecnologías de procesamiento de datos con datos en varios lagos en función de los permisos configurados
- Lagos regionales frente a globales
- Los consumidores o los procesos distribuidos globalmente en el lago son sensibles a la latencia causada por las distancias geográficas.
- Almacenar datos localmente es una buena práctica.
- Las limitaciones normativas y la soberanía de los datos pueden exigir que éstos permanezcan en una región determinada.
- Para más información, consulte implementaciones multi-región.
Implementaciones en varias regiones
Cuando lo dictan las reglas de residencia de datos o un requisito que mantiene los datos cerca de una base de usuarios, es posible que tenga que crear cuentas de Azure Data Lake en varias regiones de Azure. Debe crear una zona de aterrizaje de datos en una región y, a continuación, replicar los datos globales mediante AzCopy, Azure Data Factory o productos de socios. Los datos locales viven en la región mientras que los datos globales se replican en varias regiones.