Vytvoření clusteru HDInsight

Dokončeno

Existují různé metody pro vytvoření clusteru HDInsight, to může být v rozsahu od použití webu Azure Portal pro snadné uživatelské rozhraní až po skriptovaná nastavení, která můžou pomoct s automatizovanými nasazeními. Následující tabulka uvádí různé metody, které můžete použít k nastavení clusteru HDInsight.

Clustery vytvořené pomocí Webový prohlížeč Příkazový řádek REST API Sada SDK
portál Azure
Azure Data Factory
Azure CLI
Azure PowerShell
cURL
.NET SDK
Šablona Azure Resource Manageru

Všechna nastavení HDInsight vyžadují následující základní informace, mezi které patří:

Karta Základní informace

Podrobnosti o projektu

Předplatné

Definuje předplatné Azure, ve kterém se bude služba HDInsight účtovat a spravovat.

Název skupiny prostředků

Skupina prostředků je logické seskupení technologií a služeb Azure, které obvykle souvisejí se stejnou aplikací nebo životním cyklem aplikace. Seskupování služeb ve stejné skupině prostředků usnadňuje údržbu správy.

Snímek obrazovky se základní kartou na obrazovce Vytvořit cluster HDInsight na webu Azure Portal

Podrobnosti o clusteru

Název clusteru

Názvy clusterů HDInsight mají následující omezení:

  • Povolené znaky: a-z, 0-9, A-Z
  • Maximální délka: 59
  • Rezervované názvy: aplikace
  • Obor pojmenování clusteru je určený pro všechny Azure napříč všemi předplatnými. Název clusteru proto musí být jedinečný po celém světě.
  • Prvních šest znaků musí být v rámci virtuální sítě jedinečné.

Místo

Určuje umístění, ve kterém je typ clusteru uložený. Pokud není definováno žádné umístění, cluster se shromáždí do stejného umístění jako výchozí úložiště. Umístění by mělo být co nejblíže vašim uživatelům, aby se snížila latence.

Typy clusterů

Definuje sadu technologií zřízenou v clusteru prostředků. Vyberte typ clusteru na základě typu dat, která máte, a druh zpracování vašeho scénáře vyžaduje. Dostupné typy clusterů uvedené v následující tabulce.  

Typ clusteru Popis
Apache Hadoop Architektura, která používá HDFS, a jednoduchý programovací model MapReduce ke zpracování a analýze dávkových dat. 
Apache Spark Opensourcová architektura paralelního zpracování, která podporuje zpracování v paměti za účelem zvýšení výkonu aplikací pro analýzu velkých objemů dat.
HBase Databáze NoSQL založená na Hadoopu, která poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat – potenciálně miliardy řádků krát miliony sloupců. 
Apache Interactive Query Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy Hive 
Apache Kafka Open source platforma, která se používá k vytváření streamovaných datových kanálů a aplikací. Kafka také poskytuje funkce propojující fronty zpráv, pomocí kterých můžete publikovat datové streamy a přihlašovat se k jejich odběru.

Verze

Definuje verzi SLUŽBY HDInsight pro tento cluster. HDInsight 4.0 je nejnovější verze a má nejnovější architektury zřízené pro clustery.

Přihlašovací údaje clusteru

Pomocí clusterů HDInsight můžete během vytváření clusteru nakonfigurovat dva uživatelské účty.

Přihlášení ke clusteru a heslo

Výchozí uživatelské jméno je správce. Používá základní konfiguraci na webu Azure Portal. Někdy se nazývá "Uživatel clusteru".

Uživatelské jméno a heslo SSH

Slouží k připojení ke clusteru přes SSH.

Poznámka:

Balíček zabezpečení podniku umožňuje integrovat HDInsight se službou Active Directory a Apache Ranger. Pomocí balíčku zabezpečení Enterprise je možné vytvořit více uživatelů.

Karta Úložiště

Clustery HDInsight můžou používat následující možnosti úložiště, jak je znázorněno na obrazovce úložiště:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Storage pro obecné účely v2
  • Azure Storage pro obecné účely v1
  • Objekt blob bloku úložiště Azure (podporovaný pouze jako sekundární úložiště)

Obrazovka úložiště umožňuje definovat primární účet úložiště a výchozí kontejner. Můžete také propojit další službu Azure Storage s clusterem. Nastavení metastoru umožňuje definovat externí databázi SQL pro ukládání tabulek Hive po odstranění clusteru a ke zlepšení výkonu Oozie uložením metadat do externího úložiště.

Snímek obrazovky s kartou Úložiště na obrazovce Vytvořit cluster HDInsight na webu Azure Portal

Zabezpečení a sítě

U typů clusterů Hadoop, Spark, HBase, Kafka a Interactive Query můžete povolit balíček zabezpečení podniku. Tento balíček nabízí možnost zajistit bezpečnější nastavení clusteru pomocí Apache Rangeru a integrace s ID Microsoft Entra.

Snímek obrazovky s kartou Zabezpečení a sítě na obrazovce Vytvořit cluster HDInsight na webu Azure Portal

Kromě toho se vždy doporučuje nasadit clustery HDInsight v rámci virtuální sítě a můžete definovat a nastavit virtuální sítě na této obrazovce. Pokud vaše řešení vyžaduje technologie rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů. Tato konfigurace umožňuje clusterům a veškerý kód, který do nich nasadíte, komunikovat přímo mezi sebou.

Konfigurace a ceny

Tato stránka umožňuje nakonfigurovat velikost a výkon clusteru a zobrazit odhadované informace o nákladech. Na této obrazovce můžete definovat virtuální počítače, které se budou používat pro hlavní (hlavní) uzly a také pro pracovní uzly.

Snímek obrazovky s kartou Konfigurace a ceny na obrazovce Vytvořit cluster HDInsight na webu Azure Portal