Vytvoření clusteru HDInsight
Existují různé metody pro vytvoření clusteru HDInsight, to může být v rozsahu od použití webu Azure Portal pro snadné uživatelské rozhraní až po skriptovaná nastavení, která můžou pomoct s automatizovanými nasazeními. Následující tabulka uvádí různé metody, které můžete použít k nastavení clusteru HDInsight.
Clustery vytvořené pomocí | Webový prohlížeč | Příkazový řádek | REST API | Sada SDK |
---|---|---|---|---|
portál Azure | ✔ | |||
Azure Data Factory | ✔ | ✔ | ✔ | ✔ |
Azure CLI | ✔ | |||
Azure PowerShell | ✔ | |||
cURL | ✔ | ✔ | ||
.NET SDK | ✔ | |||
Šablona Azure Resource Manageru | ✔ |
Všechna nastavení HDInsight vyžadují následující základní informace, mezi které patří:
Karta Základní informace
Podrobnosti o projektu
Předplatné
Definuje předplatné Azure, ve kterém se bude služba HDInsight účtovat a spravovat.
Název skupiny prostředků
Skupina prostředků je logické seskupení technologií a služeb Azure, které obvykle souvisejí se stejnou aplikací nebo životním cyklem aplikace. Seskupování služeb ve stejné skupině prostředků usnadňuje údržbu správy.
Podrobnosti o clusteru
Název clusteru
Názvy clusterů HDInsight mají následující omezení:
- Povolené znaky: a-z, 0-9, A-Z
- Maximální délka: 59
- Rezervované názvy: aplikace
- Obor pojmenování clusteru je určený pro všechny Azure napříč všemi předplatnými. Název clusteru proto musí být jedinečný po celém světě.
- Prvních šest znaků musí být v rámci virtuální sítě jedinečné.
Místo
Určuje umístění, ve kterém je typ clusteru uložený. Pokud není definováno žádné umístění, cluster se shromáždí do stejného umístění jako výchozí úložiště. Umístění by mělo být co nejblíže vašim uživatelům, aby se snížila latence.
Typy clusterů
Definuje sadu technologií zřízenou v clusteru prostředků. Vyberte typ clusteru na základě typu dat, která máte, a druh zpracování vašeho scénáře vyžaduje. Dostupné typy clusterů uvedené v následující tabulce.
Typ clusteru | Popis |
---|---|
Apache Hadoop | Architektura, která používá HDFS, a jednoduchý programovací model MapReduce ke zpracování a analýze dávkových dat. |
Apache Spark | Opensourcová architektura paralelního zpracování, která podporuje zpracování v paměti za účelem zvýšení výkonu aplikací pro analýzu velkých objemů dat. |
HBase | Databáze NoSQL založená na Hadoopu, která poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat – potenciálně miliardy řádků krát miliony sloupců. |
Apache Interactive Query | Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy Hive |
Apache Kafka | Open source platforma, která se používá k vytváření streamovaných datových kanálů a aplikací. Kafka také poskytuje funkce propojující fronty zpráv, pomocí kterých můžete publikovat datové streamy a přihlašovat se k jejich odběru. |
Verze
Definuje verzi SLUŽBY HDInsight pro tento cluster. HDInsight 4.0 je nejnovější verze a má nejnovější architektury zřízené pro clustery.
Přihlašovací údaje clusteru
Pomocí clusterů HDInsight můžete během vytváření clusteru nakonfigurovat dva uživatelské účty.
Přihlášení ke clusteru a heslo
Výchozí uživatelské jméno je správce. Používá základní konfiguraci na webu Azure Portal. Někdy se nazývá "Uživatel clusteru".
Uživatelské jméno a heslo SSH
Slouží k připojení ke clusteru přes SSH.
Poznámka:
Balíček zabezpečení podniku umožňuje integrovat HDInsight se službou Active Directory a Apache Ranger. Pomocí balíčku zabezpečení Enterprise je možné vytvořit více uživatelů.
Karta Úložiště
Clustery HDInsight můžou používat následující možnosti úložiště, jak je znázorněno na obrazovce úložiště:
- Azure Data Lake Storage Gen2
- Azure Data Lake Storage Gen1
- Azure Storage pro obecné účely v2
- Azure Storage pro obecné účely v1
- Objekt blob bloku úložiště Azure (podporovaný pouze jako sekundární úložiště)
Obrazovka úložiště umožňuje definovat primární účet úložiště a výchozí kontejner. Můžete také propojit další službu Azure Storage s clusterem. Nastavení metastoru umožňuje definovat externí databázi SQL pro ukládání tabulek Hive po odstranění clusteru a ke zlepšení výkonu Oozie uložením metadat do externího úložiště.
Zabezpečení a sítě
U typů clusterů Hadoop, Spark, HBase, Kafka a Interactive Query můžete povolit balíček zabezpečení podniku. Tento balíček nabízí možnost zajistit bezpečnější nastavení clusteru pomocí Apache Rangeru a integrace s ID Microsoft Entra.
Kromě toho se vždy doporučuje nasadit clustery HDInsight v rámci virtuální sítě a můžete definovat a nastavit virtuální sítě na této obrazovce. Pokud vaše řešení vyžaduje technologie rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů. Tato konfigurace umožňuje clusterům a veškerý kód, který do nich nasadíte, komunikovat přímo mezi sebou.
Konfigurace a ceny
Tato stránka umožňuje nakonfigurovat velikost a výkon clusteru a zobrazit odhadované informace o nákladech. Na této obrazovce můžete definovat virtuální počítače, které se budou používat pro hlavní (hlavní) uzly a také pro pracovní uzly.