Los criterios de decisión para seleccionar la opción de configuración correcta de HDInsight

7 minutos

Hay distintas configuraciones del servicio HDInsight que se pueden usar para diversos escenarios de análisis. De hecho, HDInsight contiene tantas tecnologías de análisis de OSS que se podría considerar un espacio integrado para las necesidades de análisis avanzado. Todos los tipos de clúster disponibles pueden satisfacer las necesidades de los escenarios empresariales que se describen a continuación. Con cada tipo de clúster, usted tendrá un control completo sobre la administración de cada uno de estos escenarios en HDInsight. 

Muchas empresas tienen requisitos similares en lo que respecta a los escenarios de procesamiento y análisis de datos para obtener valor empresarial. Entre estos requisitos se incluyen los siguientes:

Procesamiento por lotes

HDInsight se puede usar para operaciones de extracción, transformación y carga (ETL), o bien de extracción, carga y transformación (ELT) en datos estructurados y no estructurados mediante Hadoop o Spark, y los marcos de procesamiento de datos, incluidos Hive y Sqoop.  

Almacenamiento de datos

Tradicionalmente, se encargaban de ello las bases de datos relacionales locales, como SQL Server, pero más recientemente lo lleva a cabo Azure SQL Data Warehouse en datos estructurados a escala de petabytes. HDInsight permite realizar consultas interactivas a escala de petabytes en datos estructurados o no estructurados en muchos formatos. Esta capacidad puede funcionar bien si administra las operaciones de datos y los requisitos de informes mediante HDInsight Hadoop con Hive. 

Streaming de datos

Los datos de streaming se pueden ingerir desde diversos orígenes mediante HDInsight en un centro de eventos o IoT Hub con Spark Streaming.  

Híbrido

Algunas organizaciones ya disponen de infraestructuras de macrodatos locales. Puede ampliar la capacidad a la nube con HDInsight.

El factor que determina cuál es la opción de configuración correcta para el clúster de HDInsight es la carga de trabajo que atenderá el clúster de HDInsight. Si su organización trabaja con varias cargas de trabajo, no es raro cambiar a configuraciones diferentes de HDInsight que se adapten a la carga de trabajo que se debe procesar.

Tipo de carga de trabajo	Tipo de clúster
Movimiento de datos por lotes	Apache Hadoop
Ciencia de datos: por lotes y transmisión	Spark de Apache
Cargas de trabajo transaccionales	HBase
Análisis ad hoc/Almacenamiento de datos	Consulta interactiva de Apache
Análisis de transmisiones	Apache Kafka

Importante

Los clústeres de HDInsight están disponibles en distintos tipos, cada uno de ellos para una carga de trabajo o una tecnología única. No hay ningún método admitido para crear un solo clúster que combine varios tipos, como Hadoop y HBase. Si la solución requiere tecnologías repartidas entre varios tipos de clústeres de HDInsight, una red virtual de Azure puede conectar los tipos de clústeres necesarios.

Los criterios de decisión para seleccionar la opción de configuración correcta de HDInsight

Procesamiento por lotes

Almacenamiento de datos

Streaming de datos

Híbrido

Comentarios