Comparación de opciones de almacenamiento para los clústeres de Azure HDInsight
Puede elegir entre diferentes servicios de Azure Storage al crear clústeres de HDInsight:
En este artículo se proporciona información general sobre estos tipos de almacenamiento y sus características exclusivas.
Tipos de almacenamiento y características
En la tabla siguiente se resumen los servicios de Azure Storage que son compatibles con diferentes versiones de HDInsight:
Servicio de Storage | Tipo de cuenta | Tipo de espacio de nombres | Servicios admitidos | Niveles de rendimiento admitidos | Niveles de acceso admitidos | Versión de HDInsight | Tipo de clúster |
---|---|---|---|---|---|---|---|
Azure Data Lake Storage Gen2 | Uso general v2 | Jerárquico (sistema de archivos) | Blob | Estándar | Frecuente, esporádico, archivo | All | Todos excepto Spark 2.1 y 2.2 |
Azure Storage | Uso general v2 | Object | Blob | Estándar | Frecuente, esporádico, archivo | All | All |
Azure Storage | Uso general v1 | Object | Blob | Estándar | N/D | All | All |
Azure Storage | Blob Storage** | Object | Blob en bloques | Estándar | Frecuente, esporádico, archivo | All | All |
Azure Data Lake Storage Gen1 | N/D | Jerárquico (sistema de archivos) | N/D | N/D | N/D | All | Todos excepto HBase |
Azure Storage | Blob en bloques | Object | Blob en bloques | Premium | N/D | All | Solo HBase con escrituras aceleradas |
Azure Data Lake Storage Gen2 | Blob en bloques | Jerárquico (sistema de archivos) | Blob en bloques | Premium | N/D | All | Solo HBase con escrituras aceleradas |
**Para los clústeres de HDInsight, solo las cuentas de almacenamiento secundarias pueden ser de tipo BlobStorage; Blob en páginas no es una opción de almacenamiento admitida.
Para obtener más información sobre los tipos de cuentas de almacenamiento, consulte Información general acerca de la cuenta de Azure Storage.
Para obtener más información sobre los niveles de acceso de Azure Storage, consulte Azure Blob Storage: niveles de almacenamiento de archivo, esporádico, frecuente y Premium (versión preliminar).
Puede crear clústeres mediante combinaciones de servicios para el almacenamiento principal y el secundario opcional. En la tabla siguiente se resumen las configuraciones de almacenamiento de clúster que actualmente se admiten en HDInsight:
Versión de HDInsight | Almacenamiento principal | Almacenamiento secundario | Compatible |
---|---|---|---|
4.0, 5.0, 5.1 | Uso general V1, uso general V2 | Uso general V1, uso general V2, BlobStorage (blobs en bloques) | Sí |
4.0, 5.0, 5.1 | Uso general V1, uso general V2 | Data Lake Storage Gen2 | No |
4.0, 5.0, 5.1 | Data Lake Storage Gen2 | Data Lake Storage Gen2 | Sí |
4.0, 5.0, 5.1 | Data Lake Storage Gen2* | Uso general V1, uso general V2, BlobStorage (blobs en bloques) | Sí |
4.0, 5.0, 5.1 | Data Lake Storage Gen2 | Data Lake Storage Gen1 | No |
4.0, 5.0, 5.1 | Data Lake Storage Gen1 | Data Lake Storage Gen1 | Sí |
4.0, 5.0, 5.1 | Data Lake Storage Gen1 | Uso general V1, uso general V2, BlobStorage (blobs en bloques) | Sí |
4.0, 5.0, 5.1 | Data Lake Storage Gen1 | Data Lake Storage Gen2 | No |
4.0, 5.0, 5.1 | Uso general V1, uso general V2 | Data Lake Storage Gen1 | No |
* Podría tratarse de una o varias instancias de Data Lake Storage Gen2, siempre y cuando todas estén configuradas para usar la misma identidad administrada para el acceso al clúster.
Nota
El almacenamiento principal de Data Lake Storage Gen2 no es compatible con los clústeres de Spark 2.1 o 2.2.
Replicación de datos
Azure HDInsight no almacena los datos de los clientes. Los principales medios de almacenamiento para un clúster son sus cuentas de almacenamiento asociadas. Puede asociar el clúster a una cuenta de almacenamiento existente o crear una nueva cuenta de almacenamiento durante el proceso de creación del clúster. Si se crea una nueva, será una cuenta de almacenamiento con redundancia local (LRS) y cumplirá los requisitos de residencia de datos en la región, incluidos los especificados en Centro de confianza.
Puede asegurarse de que HDInsight está configurado correctamente para almacenar datos en una sola región, asegurándose de que la cuenta de almacenamiento asociada a HDInsight sea LRS u otra opción de almacenamiento mencionada en Centro de confianza.
Nota
No se admite la actualización de la cuenta de almacenamiento principal o secundaria de un clúster en ejecución con funcionalidades de Azure Data Lake Storage Gen2. Para cambiar el tipo de almacenamiento de un clúster de HDInsight existente a Data Lake Storage Gen2, deberá volver a crear el clúster y seleccionar una cuenta de almacenamiento habilitada para el espacio de nombres jerárquico.