Compartir vía


Consideraciones clave de Azure Data Lake Storage

Obtenga información sobre el almacenamiento de claves de los lagos de datos de Azure.

Administración del ciclo de vida

Azure Storage ofrece distintos niveles de acceso, que le permiten almacenar datos de objetos de blob de la manera más rentable posible. Entre los niveles de acceso disponibles se incluyen:

  • Frecuente: optimizado para almacenar datos que se consultan con frecuencia.
  • Esporádico: optimizado para almacenar datos que se consultan con poca frecuencia. Los datos se almacenan durante al menos 30 días.
  • Nivel de acceso esporádico: optimizado para almacenar datos a los que se accede o se modifican con poca frecuencia. Los datos se almacenan durante al menos 90 días. El nivel de acceso frío tiene menores costes de almacenamiento y mayores costes de acceso en comparación con el nivel de acceso esporádico.
  • Archivo: optimizado para almacenar datos a los que se accede rara vez. Los datos se almacenan durante al menos 180 días con requisitos de latencia flexibles, del orden de horas.

Importante

No hay ninguna confiabilidad, seguridad, excelencia operativa o desventajas en la eficiencia del rendimiento entre los distintos niveles de acceso en línea, lo que deja la elección de un nivel en línea para ser una decisión financiera, por blob, en función del tamaño de los datos de acceso a la carga de trabajo, las interacciones operativas y el tiempo antes de que se elimine el blob. Seleccione el nivel correcto, por blob, en función de un cálculo de los factores anteriores. Para más información, vea Planeamiento y administración de costes de Azure Blob Storage.

Tenga en cuenta la siguiente información al usar los niveles de acceso:

  • Solo los niveles de almacenamiento de acceso frecuente y esporádico se pueden establecer en el nivel de cuenta. El nivel de acceso de archivo no está disponible en el nivel de cuenta.

  • Los niveles frecuente, esporádico y de archivo se pueden establecer en el nivel de blob durante la carga o después de esta.

  • Los datos del nivel de acceso esporádico tienen una disponibilidad ligeramente inferior, pero ofrecen las mismas características de alta durabilidad, latencia de recuperación y rendimiento similares a las del nivel de acceso frecuente. En el caso de los datos del nivel de acceso esporádico, una disponibilidad ligeramente menor y mayores costes de acceso pueden ser unas desventajas aceptables frente a costes de almacenamiento generales más bajos en comparación con el nivel de acceso frecuente.

  • El almacenamiento de archivo almacena datos sin conexión y ofrece los costos de almacenamiento más bajos. Sin embargo, también presenta los mayores costos de rehidratación y acceso a los datos.

Para obtener más información, consulte Niveles de acceso para los datos del blob.

Precaución

En el caso del análisis a escala de nube, se recomienda implementar la administración del ciclo de vida mediante un microservicio personalizado y tener en cuenta cuidadosamente el impacto de mover los datos reconocibles por el usuario al almacenamiento esporádico.

Solo debe mover secciones del lago de datos al nivel de uso esporádico si las cargas de trabajo son bien conocidas.

Conectividad de los lagos de datos

Cada uno de los lagos de datos debe usar puntos de conexión privados insertados en la red virtual de la zona de aterrizaje de datos. Para proporcionar acceso a través de zonas de aterrizaje, conecte las zonas de aterrizaje de datos a través del emparejamiento de red virtual. Esta conexión proporciona la solución óptima desde ambas perspectivas, la de costos y la de control de acceso.

Para más información, consulte Puntos de conexión privados y Zona de aterrizaje de administración de datos en la zona de aterrizaje de datos.

Importante

Se puede acceder a los datos de una zona de aterrizaje de datos desde otra zona de aterrizaje de datos a través del emparejamiento de red virtual entre las zonas. Esto se hace mediante los puntos de conexión privados asociados a cada cuenta de lago de datos. Se recomienda desactivar todo el acceso público a los lagos y usar puntos de conexión privados. El equipo de operaciones de la plataforma debe controlar la conectividad de red entre las zonas de aterrizaje de datos.

Eliminación temporal para contenedores

La eliminación temporal de contenedores protege los datos frente a eliminaciones accidentales o malintencionadas. Si habilita la eliminación temporal de contenedores para la cuenta de almacenamiento, los contenedores eliminados y su contenido se conservan en Azure Storage durante el período de tiempo que elija. Durante el período de retención de datos, puede restaurar los contenedores previamente eliminados. Al restaurar un contenedor también se restauran los blobs del mismo cuando se eliminó.

Habilite las siguientes características de protección de datos para lograr la protección de datos de blobs de un extremo a otro:

Advertencia

No se puede deshacer la eliminación de una cuenta de almacenamiento. La eliminación temporal de contenedores no protege contra la eliminación de una cuenta de almacenamiento, solo contra la eliminación de los contenedores de esa cuenta. Para proteger una cuenta de almacenamiento de la eliminación, configure un bloqueo en el recurso de la cuenta de almacenamiento. Para obtener más información sobre el bloqueo de recursos de Azure Resource Manager, consulte Bloqueo de recursos para impedir cambios inesperados.

Supervisión

En una zona de aterrizaje de datos, toda la supervisión debe enviarse a la suscripción de administración de la zona de aterrizaje de Azure para su análisis.

Para más información sobre los datos de supervisión que Azure Storage usa, consulte Supervisión de recursos de Azure con Azure Monitor. Para más información sobre los registros y las métricas que crea Azure Storage, consulte Supervisión de Azure Blob Storage.

Las entradas del registro solo se crean si se presentan solicitudes al punto de conexión de servicio. Los tipos de solicitudes autenticadas registrados son:

  • Solicitudes correctas
  • Solicitudes erróneas, incluidos errores de tiempo de espera, de limitación, de red, de autorización y de otro tipo
  • Solicitudes que usan una firma de acceso compartido (SAS) u OAuth, incluidas las solicitudes correctas como con error
  • Solicitudes de datos de análisis, como datos de registro clásicos en el contenedor $logs, y datos de métricas de clase en las tablas $metric.

Las solicitudes realizadas por el propio servicio de almacenamiento, como la creación o eliminación de registros, no se registran. Los tipos de solicitudes anónimas registrados son:

  • Solicitudes correctas
  • Errores del servidor
  • Errores de tiempo de espera del cliente y el servidor
  • Solicitudes HTTP GET erróneas con el código de error 304 (Not Modified).

El resto de las solicitudes anónimas con error no se registran.

Importante

Establezca la directiva de supervisión predeterminada para auditar el almacenamiento y enviar registros a la suscripción de administración de la escala empresarial.

Los siguientes usos son los patrones de seguridad recomendados para cada una de las zonas de lago de datos:

  • El uso sin procesar solo permite acceder a los datos mediante nombres de entidad de seguridad (SPN), preferiblemente utilizando identidades administradas.
  • El uso enriquecido permite el acceso a los datos únicamente mediante nombres de entidad de seguridad (SPN), preferiblemente mediante identidades administradas.
  • El uso curado permite el acceso tanto a nombres de entidad de seguridad (SPN) como a nombres de usuario (UPN).

Para obtener más información, consulte Modelo de control de acceso en Azure Data Lake Storage.

Pasos siguientes