Descripción de Azure Data Lake Storage Gen2

Completado

El término "data lake" define un repositorio de datos que se almacenan en su formato natural, normalmente como blobs o archivos. Azure Data Lake Storage es una solución de lago de datos completa, escalable de forma masiva, segura y rentable integrada en Azure para la realización de análisis de alto rendimiento.

Diagrama que representa archivos en Azure data Lake Storage Gen2 a los que se accede con tecnologías de macrodatos.

Azure Data Lake Storage combina un sistema de archivos con una plataforma de almacenamiento para ayudar a identificar rápidamente conclusiones en los datos. Data Lake Storage se basa en la funcionalidad de Azure Blob Storage y lo optimiza específicamente para cargas de trabajo de análisis. Esta integración facilita el rendimiento analítico, las capacidades de administración del ciclo de vida de los datos y los niveles de Blob Storage y las capacidades de alta disponibilidad, seguridad y durabilidad de Azure Storage.

Ventajas

Data Lake Storage está diseñado para afrontar esta variedad y este volumen de datos a escala de exabytes, a la vez que administra un procesamiento de cientos de gigabytes. Esto permite usar Data Lake Storage Gen2 como base para soluciones en tiempo real y de lotes.

Acceso compatible con Hadoop

Una ventaja de Data Lake Storage es que permite tratar los datos como si estuvieran almacenados en un Sistema de archivos distribuido de Hadoop (HDFS). Con esta característica, se pueden almacenar los datos en un solo lugar y acceder a ellos a través de tecnologías informáticas que incluyen Azure Databricks, Azure HDInsight y Azure Synapse Analytics sin mover los datos entre entornos. El ingeniero de datos también puede usar mecanismos de almacenamiento, como el formato parquet, que consigue una elevada compresión y funciona bien en varias plataformas usando un almacenamiento en columnas interno.

Seguridad

Data Lake Storage admite listas de control de acceso (ACL) y permisos POSIX (interfaz de sistema operativo portable) que no heredan los permisos del directorio primario. De hecho, puede establecer permisos en el nivel de directorio o de archivo para los datos almacenados en el lago de datos, lo que proporciona un sistema de almacenamiento mucho más seguro. Esta seguridad se puede configurar usando tecnologías como Hive y Spark, o utilidades como el Explorador de Azure Storage, que se ejecuta en Windows, macOS y Linux. Todos los datos almacenados se cifran en reposo mediante claves administradas por el cliente o por Microsoft.

Rendimiento

Azure Data Lake Storage organiza los datos almacenados en una jerarquía de directorios y subdirectorios muy similar a un sistema de archivos para facilitar la navegación. Como resultado, el procesamiento de datos requiere menos recursos informáticos, lo que reduce el tiempo y el costo.

Redundancia de datos

Data Lake Storage aprovecha los modelos de replicación de Azure Blob que proporcionan redundancia de datos en un solo centro de datos con almacenamiento con redundancia local (LRS), o bien en una región secundaria mediante la opción de almacenamiento con redundancia geográfica (GRS). Esta característica garantiza que los datos estén siempre disponibles y protegidos si se produce una catástrofe.

Sugerencia

Siempre que planee un lago de datos, un ingeniero de datos debe pensar detenidamente en la estructura, la gobernanza de datos y la seguridad. Esto debe incluir la consideración de factores que pueden influir en la estructura y la organización del lago; por ejemplo:

  • Tipos de datos que se van a almacenar.
  • Cómo se transformarán los datos.
  • Quién debe acceder a los datos.
  • Cuáles son los patrones de acceso típicos.

Este enfoque ayudará a determinar cómo planear la gobernanza del control de acceso en todo el lago. Los ingenieros de datos deben ser proactivos para asegurarse de que el lago no se convierta en el consabido pantano de datos que se vuelve inaccesible e inútil para los usuarios debido a la falta de medidas de gobernanza y calidad de los datos. Establecer una línea base y seguir los procedimientos recomendados para Azure Data Lake ayudará a garantizar una implementación adecuada y sólida que permita a la organización crecer y obtener información para alcanzar más logros.