Los criterios de decisión para seleccionar la opción de configuración correcta de HDInsight
Hay distintas configuraciones del servicio HDInsight que se pueden usar para diversos escenarios de análisis. De hecho, HDInsight contiene tantas tecnologías de análisis de OSS que se podría considerar un espacio integrado para las necesidades de análisis avanzado. Todos los tipos de clúster disponibles pueden satisfacer las necesidades de los escenarios empresariales que se describen a continuación. Con cada tipo de clúster, usted tendrá un control completo sobre la administración de cada uno de estos escenarios en HDInsight.
Muchas empresas tienen requisitos similares en lo que respecta a los escenarios de procesamiento y análisis de datos para obtener valor empresarial. Entre estos requisitos se incluyen los siguientes:
Procesamiento por lotes
HDInsight se puede usar para operaciones de extracción, transformación y carga (ETL), o bien de extracción, carga y transformación (ELT) en datos estructurados y no estructurados mediante Hadoop o Spark, y los marcos de procesamiento de datos, incluidos Hive y Sqoop.
Almacenamiento de datos
Tradicionalmente, se encargaban de ello las bases de datos relacionales locales, como SQL Server, pero más recientemente lo lleva a cabo Azure SQL Data Warehouse en datos estructurados a escala de petabytes. HDInsight permite realizar consultas interactivas a escala de petabytes en datos estructurados o no estructurados en muchos formatos. Esta capacidad puede funcionar bien si administra las operaciones de datos y los requisitos de informes mediante HDInsight Hadoop con Hive.
Streaming de datos
Los datos de streaming se pueden ingerir desde diversos orígenes mediante HDInsight en un centro de eventos o IoT Hub con Spark Streaming.
Híbrido
Algunas organizaciones ya disponen de infraestructuras de macrodatos locales. Puede ampliar la capacidad a la nube con HDInsight.
El factor que determina cuál es la opción de configuración correcta para el clúster de HDInsight es la carga de trabajo que atenderá el clúster de HDInsight. Si su organización trabaja con varias cargas de trabajo, no es raro cambiar a configuraciones diferentes de HDInsight que se adapten a la carga de trabajo que se debe procesar.
Tipo de carga de trabajo | Tipo de clúster |
---|---|
Movimiento de datos por lotes | Apache Hadoop |
Ciencia de datos: por lotes y transmisión | Spark de Apache |
Cargas de trabajo transaccionales | HBase |
Análisis ad hoc/Almacenamiento de datos | Consulta interactiva de Apache |
Análisis de transmisiones | Apache Kafka |
Importante
Los clústeres de HDInsight están disponibles en distintos tipos, cada uno de ellos para una carga de trabajo o una tecnología única. No hay ningún método admitido para crear un solo clúster que combine varios tipos, como Hadoop y HBase. Si la solución requiere tecnologías repartidas entre varios tipos de clústeres de HDInsight, una red virtual de Azure puede conectar los tipos de clústeres necesarios.