Consideraciones clave de Azure Data Lake Storage
Azure Storage ofrece una variedad de opciones de almacenamiento para los datos. En este artículo se proporcionan consideraciones que le ayudarán a elegir el nivel de acceso adecuado para que pueda equilibrar el costo y el rendimiento. También se describe la administración del ciclo de vida de Storage, incluidas las características y los procedimientos recomendados para ayudarle a usar los niveles de acceso de forma eficaz.
Administración del ciclo de vida
Azure Storage ofrece varios niveles de acceso que puede usar para almacenar datos de objetos de blob. Elija el nivel que mejor se adapte a la carga de trabajo para optimizar el costo.
Use un nivel de acceso para almacenar datos a los que se accede con frecuencia.
Usa un nivel frío para almacenar datos a los que se accede con poca frecuencia. Este nivel almacena datos durante al menos 30 días.
Use un nivel de frío para almacenar datos modificados o a los que se accede con poca frecuencia. Este nivel almacena datos durante al menos 90 días. El nivel de acceso frío tiene menores costes de almacenamiento y mayores costes de acceso en comparación con el nivel de acceso esporádico.
Use un nivel de archivo para almacenar datos a los que rara vez se accede. Este nivel almacena los datos durante al menos 180 días. El acceso a estos datos puede tener requisitos de latencia flexibles, lo que significa que puede tardar horas en recuperar datos.
Importante
Los niveles de acceso en línea (frecuente, esporádico y frío) no tienen inconvenientes de confiabilidad, seguridad, excelencia operativa o eficiencia del rendimiento. Por lo tanto, debe basar su decisión en el costo de cada blob. Tenga en cuenta el tamaño de los datos de acceso a la carga de trabajo, las interacciones operativas y el tiempo antes de que se elimine el blob. Seleccione el nivel adecuado para cada blob en función de estos factores. Para más información, vea Planeamiento y administración de costes de Azure Blob Storage.
Tenga en cuenta los siguientes factores al usar los niveles de acceso:
Establezca solo los niveles de acceso frecuente y esporádico en el nivel de cuenta. El nivel de cuenta no admite el nivel de acceso de archivo.
Establezca los niveles de acceso frecuente, esporádico y de archivo en el nivel de blob durante la carga o después de la carga.
Los datos de los niveles de acceso esporádico y frío tienen una disponibilidad ligeramente inferior, pero estos niveles ofrecen características similares a las del nivel de acceso frecuente, como alta durabilidad, latencia de recuperación y rendimiento. Para los datos en los niveles fríos o intermedios, la menor disponibilidad y los costos de acceso más altos son intercambios aceptables por los menores costos de almacenamiento en comparación con el nivel caliente.
El almacenamiento de archivo almacena datos sin conexión y ofrece los costos de almacenamiento más bajos. Pero también incurre en mayores costos de rehidratación y acceso a los datos.
Para obtener más información, consulte Niveles de acceso para los datos del blob.
Importante
Para el análisis a escala en la nube, use un microservicio personalizado para implementar administración del ciclo de vida. Considere cuidadosamente el impacto de mover datos accesibles por el usuario al almacenamiento frío. Mueva secciones de su lago de datos al nivel esporádico solo para cargas de trabajo bien comprendidas.
Conectividad de Data Lake
Cada lago de datos debe usar puntos de conexión privados que se integren en la red virtual de la zona de aterrizaje de datos. Para proporcionar acceso a través de zonas de aterrizaje, conecte las zonas de aterrizaje de datos a través del emparejamiento de red virtual. Esta conexión proporciona una solución óptima desde una perspectiva de costo y control de acceso.
Para más información, consulte Puntos de conexión privados y Zona de aterrizaje de administración de datos en la zona de aterrizaje de datos.
Importante
Una zona de aterrizaje de datos puede acceder a los datos de otra mediante el emparejamiento de red virtual. Los puntos de conexión privados establecen la conexión asociada a cada cuenta de Data Lake. Se recomienda desactivar todo el acceso público a los lagos y usar puntos de conexión privados. El equipo de operaciones de la plataforma debe controlar la conectividad de red entre las zonas de aterrizaje de datos.
Eliminación temporal para contenedores
La eliminación temporal de contenedores ayuda a proteger los datos frente a la eliminación accidental o malintencionada. Si habilita la eliminación temporal del contenedor para la cuenta de almacenamiento, Storage conserva los contenedores eliminados y su contenido durante un período de tiempo especificado. Durante el período de retención de datos, puede restaurar contenedores eliminados previamente. Esta acción también restaura los blobs que estaban en ese contenedor cuando se eliminó.
Habilite las siguientes funciones de protección de datos para mejorar la protección de datos de blobs de un extremo a otro:
Use el borrado reversible del contenedor para restaurar un contenedor eliminado. Para obtener más información, consulte Habilitación y administración de la eliminación temporal para contenedores.
Utilice la opción de eliminación temporal de blobs para restaurar un blob o una versión eliminados. Para obtener más información, consulte Habilitación y administración de la eliminación temporal para blobs.
Advertencia
Después de eliminar una cuenta de almacenamiento, no se puede deshacer la eliminación. La eliminación temporal del contenedor no protege contra la eliminación de la cuenta de almacenamiento, solo contra la eliminación de los contenedores dentro de una cuenta. Para proteger una cuenta de almacenamiento de la eliminación, configure un bloqueo en el recurso de la cuenta de almacenamiento. Para obtener más información, consulte Bloquear recursos para evitar cambios inesperados.
Supervisión
En una zona de aterrizaje de datos, envíe toda la supervisión a la suscripción de administración de zonas de aterrizaje de Azure para su análisis.
Para obtener más información, consulte Supervisión de recursos Azure con Azure Monitor y Supervisión de Blob Storage.
Las entradas de registro se crean solo para las solicitudes contra el punto de conexión del servicio. Se registran los siguientes tipos de solicitudes autenticadas:
- Solicitudes correctas
- Solicitudes con error, incluidos tiempos de espera, limitación, problemas de red, problemas de autorización y otros errores
- Solicitudes que usan una firma de acceso compartido (SAS) u OAuth, incluidas las solicitudes correctas como con error
- Solicitudes de datos de análisis, como datos de registro clásicos en el contenedor
$logs
, y datos de métricas de clase en las tablas$metric
.
Las solicitudes realizadas por el propio servicio de almacenamiento, como la creación o eliminación de registros, no se registran. Se registran los siguientes tipos de solicitudes anónimas:
- Solicitudes correctas
- Errores del servidor
- Errores de tiempo de espera del cliente y el servidor
- Solicitudes HTTP GET con error que tienen el código de error 304 (
Not Modified
)
No se registran otras solicitudes anónimas fallidas.
Importante
Establezca la directiva de supervisión predeterminada para auditar el almacenamiento y enviar registros a la suscripción de administración de la escala empresarial.
Seguridad de la zona del lago de datos
Se recomiendan los siguientes patrones de seguridad para las zonas de lago de datos:
Uso sin procesar permite el acceso a los datos utilizando únicamente nombres de entidad de seguridad (SPN). Se recomienda usar identidades administradas.
El uso enriquecido permite el acceso a datos solo mediante SPNs. Se recomienda usar identidades administradas.
El uso comisariado permite el acceso a los datos mediante los SPN y los nombres principales de usuario (UPN).
Para obtener más información, consulte modelo de control de acceso en Data Lake Storage.