Rozhodovací kritéria pro výběr správné možnosti konfigurace SLUŽBY HDInsight
Existují různé konfigurace služby HDInsight, které je možné použít pro různé analytické scénáře. HdInsight ve skutečnosti obsahuje tolik analytických technologií operačního systému, může se považovat za jediné místo pro splnění vašich pokročilých analytických potřeb. Všechny dostupné typy clusterů můžou splňovat potřeby obchodních scénářů popsaných níže. S každým typem clusteru máte úplnou kontrolu nad tím, jak jednotlivé scénáře spravujete v prostředí HDInsight.
Mnoho firem má podobné požadavky, pokud jde o scénáře pro zpracování a analýzu dat, aby odvozovaly obchodní hodnotu. Mezi tyto požadavky patří:
Dávkové zpracování
HDInsight se dá použít k extrakci, transformaci a načítání (ETL) nebo extrakci, načítání a transformaci (ELT) operací s strukturovanými i nestrukturovanými daty pomocí hadoopu nebo Sparku a rozhraní pro zpracování dat, včetně Hive a Sqoopu.
Datové sklady
Tradičně se provádí místními relačními databázemi, jako je SQL Server, a nedávno se službou Azure SQL Data Warehouse přes strukturovaná data ve velkém měřítku petabajtů. HDInsight umožňuje interaktivní dotazy v petabajtovém měřítku nad strukturovanými nebo nestrukturovanými daty v mnoha formátech. Tato funkce může dobře fungovat, pokud spravujete požadavky na operace dat a vytváření sestav pomocí HDInsight Hadoopu s Hivem.
Streamování dat
Streamovaná data je možné ingestovat z různých zdrojů pomocí HDInsight prostřednictvím centra událostí nebo IoT Hubu pomocí streamování Sparku.
Hybrid
Některé organizace už mají místní infrastrukturu pro velké objemy dat. Funkci můžete rozšířit do cloudu pomocí SLUŽBY HDInsight.
Klíčový rozhodovací bod pro výběr správné možnosti konfigurace clusteru HDInsight je založený na úloze, kterou bude cluster HDInsight obsluhovat. Pokud vaše organizace pracuje s více úlohami, není neobvyklé přepnout na různé konfigurace HDInsight tak, aby odpovídaly úlohám, které potřebují zpracování.
Typ úlohy | Typ clusteru |
---|---|
Dávkové přesuny dat | Apache Hadoop |
Datová Věda – Dávkové a streamování | Apache Spark |
Transakční úlohy | HBase |
Ad hoc Analýza / Datové sklady | Apache Interactive Query |
Analýza streamování | Apache Kafka |
Důležité
Clustery HDInsight jsou k dispozici v různých typech, z nichž každá je určená pro jednu úlohu nebo technologii. Neexistuje žádná podporovaná metoda pro vytvoření clusteru, který kombinuje více typů, jako je Hadoop a HBase v jednom clusteru. Pokud vaše řešení vyžaduje technologie rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit různé požadované typy clusterů.