Beslissingscriteria voor het selecteren van de juiste HDInsight-configuratieoptie

Voltooid

Er zijn verschillende configuraties van de HDInsight-service die kunnen worden gebruikt voor verschillende analytische scenario's. HDInsight bevat zelfs zoveel OSS-analysetechnologieën, het kan worden beschouwd als een stopwinkel voor het voldoen aan uw geavanceerde analytische behoeften. Alle verschillende clustertypen die beschikbaar zijn, kunnen voldoen aan de behoeften van de hieronder beschreven bedrijfsscenario's. Met elk clustertype hebt u volledige controle over hoe u elk van deze scenario's in HDInsight beheert. 

Veel bedrijven hebben vergelijkbare vereisten als het gaat om de scenario's voor het verwerken en analyseren van gegevens om bedrijfswaarde af te leiden. Deze vereisten kunnen het volgende omvatten:

Batchverwerking

HDInsight kan worden gebruikt voor het extraheren, transformeren en laden (ETL) of EXTRAHEREN, laden en transformeren (ELT)-bewerkingen op zowel gestructureerde als ongestructureerde gegevens met zowel Hadoop als Spark en de frameworks voor gegevensverwerking, waaronder Hive en Sqoop.  

Datawarehousing

Traditioneel uitgevoerd door on-premises relationele databases zoals SQL Server en onlangs met Azure SQL Data Warehouse over gestructureerde gegevens op petabyteschaal. HDInsight maakt interactieve query's op petabyte-schaal mogelijk boven gestructureerde of ongestructureerde gegevens in veel indelingen. Deze mogelijkheid kan goed werken als u uw gegevensbewerkingen en rapportagevereisten beheert met HDInsight Hadoop met Hive. 

Streaminggegevens

Streaminggegevens kunnen worden opgenomen uit verschillende bronnen met BEHULP van HDInsight via een Event Hub of IoT Hub met behulp van Spark Streaming.  

Hybride

Sommige organisaties hebben al on-premises big data-infrastructuren. U kunt de mogelijkheid uitbreiden naar de cloud met HDInsight.

Het belangrijkste beslissingspunt voor het selecteren van de juiste hdInsight-clusterconfiguratieoptie is gebaseerd op de werkbelasting die het HDInsight-cluster zal verwerken. Als uw organisatie met meerdere workloads werkt, is het niet ongebruikelijk dat u overschakelt naar verschillende HDInsight-configuraties zodat deze overeenkomt met de werkbelasting die moet worden verwerkt.

Workloadtype Clustertype
Batchverplaatsing van gegevens Apache Hadoop
Datawetenschap - Batch en streaming Apache Spark
Transactionele workloads HBase
Ad-hocanalyse/datawarehousing Apache Interactive Query
Streaminganalyse Apache Kafka

Belangrijk

HDInsight-clusters zijn beschikbaar in verschillende typen, elk voor één workload of technologie. Er is geen ondersteunde methode om een cluster te maken dat meerdere typen combineert, zoals Hadoop en HBase op één cluster. Als uw oplossing technologieën vereist die zijn verdeeld over meerdere HDInsight-clustertypen, kan een virtueel Azure-netwerk de verschillende vereiste clustertypen verbinden.