Sdílet prostřednictvím


Nastavení clusterů v HDInsight pomocí Apache Hadoopu, Sparku, Kafka a dalších

V tomto článku se dozvíte, jak nastavit a nakonfigurovat Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query nebo Apache HBase ve službě Azure HDInsight. Dozvíte se také, jak přizpůsobit clustery a přidat zabezpečení tím, že je připojíte k doméně.

Cluster Hadoop se skládá z několika virtuálních počítačů (označovaných také jako uzly), které se používají k distribuovanému zpracování úloh. HDInsight zpracovává podrobnosti implementace instalace a konfigurace jednotlivých uzlů. Zadáte pouze obecné informace o konfiguraci.

Důležité

Fakturace clusteru HDInsight se spustí po vytvoření clusteru a zastaví se při odstranění clusteru. Fakturace se účtuje po minutách, takže cluster vždy odstraňte, když už se nepoužívá. Zjistěte, jak odstranit cluster.

Pokud používáte více clusterů společně, chcete vytvořit virtuální síť. Pokud používáte cluster Spark, chcete také použít konektor Hive Warehouse. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse.

Metody nastavení clusteru

Následující tabulka uvádí různé metody, které můžete použít k nastavení clusteru HDInsight.

Clustery vytvořené pomocí Webový prohlížeč Příkazový řádek REST API Sada SDK
Azure Portal      
Azure Data Factory
Azure CLI      
Azure PowerShell      
cURL    
Šablony Azure Resource Manageru      

Tento článek vás provede nastavením na webu Azure Portal, kde můžete vytvořit cluster HDInsight.

Základy

Snímek obrazovky znázorňující možnosti vytvoření clusteru HDInsight

Podrobnosti projektu

Azure Resource Manager vám pomůže pracovat s prostředky ve vaší aplikaci jako se skupinou, která se označuje jako skupina prostředků Azure. Všechny prostředky aplikace můžete nasadit, aktualizovat, monitorovat nebo odstranit v jediné koordinované operaci.

Podrobnosti o clusteru

Podrobnosti o clusteru zahrnují název, oblast, typ a verzi.

Název clusteru

Názvy clusterů HDInsight mají následující omezení:

  • Povolené znaky: a-z, 0-9 a A-Z
  • Maximální délka: 59
  • Rezervované názvy: aplikace
  • Pojmenování clusteru: Obor je určený pro všechny Azure napříč všemi předplatnými. Název clusteru musí být jedinečný po celém světě. Prvních šest znaků musí být v rámci virtuální sítě jedinečné.

Oblast

Umístění clusteru nemusíte explicitně zadávat. Cluster je ve stejném umístění jako výchozí úložiště. Pokud chcete zobrazit seznam podporovaných oblastí, vyberte rozevírací seznam Oblastí s cenami služby HDInsight.

Typ clusteru

V následující tabulce hdInsight v současné době poskytuje typy clusterů, z nichž každá má sadu komponent, aby poskytovala určité funkce.

Důležité

Clustery HDInsight jsou k dispozici v různých typech, z nichž každá je určená pro jednu úlohu nebo technologii. Žádná podporovaná metoda vytvoří cluster, který kombinuje více typů, například HBase v jednom clusteru. Pokud vaše řešení vyžaduje technologie rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů.

Typ clusteru Funkce
Hadoop Dávkové dotazování a analýza uložených dat
HBase Zpracování pro velké objemy bez schématu, data NoSQL.
Interaktivní dotaz Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy Hive
Kafka Distribuovaná platforma streamování, kterou můžete použít k vytváření datových kanálů a aplikací streamování v reálném čase.
Spark Zpracování v paměti, interaktivní dotazy, zpracování mikrodávkových datových proudů

Verze

Zvolte verzi SLUŽBY HDInsight pro tento cluster. Další informace najdete v části Podporované verze služby HDInsight.

Přihlašovací údaje clusteru

Pomocí clusterů HDInsight můžete během vytváření clusteru nakonfigurovat dva uživatelské účty:

  • Uživatelské jméno pro přihlášení ke clusteru: Výchozí uživatelské jméno je správce. Používá základní konfiguraci na webu Azure Portal. Označuje se také jako uživatel clusteru nebo uživatel HTTP.
  • Uživatelské jméno Secure Shell (SSH): Slouží k připojení ke clusteru přes SSH. Další informace najdete v tématu Použití SSH se službou HDInsight.

Uživatelské jméno HTTP má následující omezení:

  • Povolené speciální znaky: _ a @
  • Nepovolené znaky: #;",/:!*?$(){}[]<>|&--=+%~^space
  • Maximální délka: 20

Uživatelské jméno SSH má následující omezení:

  • Povolené speciální znaky: _ a @
  • Nepovolené znaky: #;",/:!*?$(){}[]<>|&--=+%~^space
  • Maximální délka: 64
  • Rezervované názvy: hadoop, users, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user1, test, user2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, David, guest, John, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

Úložiště

Snímek obrazovky znázorňující nastavení úložiště clusteru s koncovými body kompatibilními s HDFS

I když místní instalace Systému Hadoop používá systém SOUBORŮ HDFS (Hadoop Distributed File System) pro úložiště v clusteru, v cloudu používáte koncové body úložiště připojené ke clusteru. Použití cloudového úložiště znamená, že můžete bezpečně odstranit clustery HDInsight používané k výpočtu a přitom zachovat data.

Clustery HDInsight můžou používat následující možnosti úložiště:

  • Azure Data Lake Storage Gen2
  • Azure Storage pro obecné účely v2
  • Objekt blob bloku služby Azure Storage (podporovaný pouze jako sekundární úložiště)

Další informace o možnostech úložiště s HDInsight najdete v tématu Porovnání možností úložiště pro použití s clustery Azure HDInsight.

Použití dalších účtů úložiště v jiném umístění než cluster HDInsight se nepodporuje.

Během konfigurace pro výchozí koncový bod úložiště zadáte kontejner objektů blob účtu úložiště nebo Data Lake Storage. Výchozí úložiště obsahuje protokoly aplikací a systémů. Volitelně můžete zadat více propojených účtů úložiště a účtů Data Lake Storage, ke kterým má cluster přístup. Cluster HDInsight a závislé účty úložiště musí být ve stejném umístění Azure.

Poznámka:

Funkce , která vyžaduje zabezpečený přenos , vynucuje všechny požadavky na váš účet prostřednictvím zabezpečeného připojení. Tuto funkci podporuje pouze cluster HDInsight verze 3.6 nebo novější. Další informace najdete v tématu Vytvoření clusteru Apache Hadoop s účty úložiště zabezpečeného přenosu ve službě Azure HDInsight.

Nepovolujte zabezpečený přenos úložiště po vytvoření clusteru, protože použití účtu úložiště může vést k chybám. Je lepší vytvořit nový cluster pomocí účtu úložiště s povoleným zabezpečeným přenosem.

HDInsight automaticky nepřenese, nepřesune nebo zkopíruje data uložená v úložišti z jedné oblasti do druhé.

Nastavení metastoru

Můžete vytvořit volitelné metastory Hive nebo Apache Oozie. Ne všechny typy clusterů podporují metastory a Azure Synapse Analytics není kompatibilní s metastory.

Další informace najdete v tématu Použití externích úložišť metadat ve službě Azure HDInsight.

Při vytváření vlastního metastoru nepoužívejte pomlčky, pomlčky ani mezery v názvu databáze. Tyto znaky můžou způsobit selhání procesu vytváření clusteru.

Databáze SQL pro Hive

Pokud chcete zachovat tabulky Hive po odstranění clusteru HDInsight, použijte vlastní metastore. Pak můžete metastor připojit k jinému clusteru HDInsight.

Metastor HDInsight vytvořený pro jednu verzi clusteru HDInsight nejde sdílet napříč různými verzemi clusteru HDInsight. Seznam verzí HDInsight najdete v tématu Podporované verze SLUŽBY HDInsight.

Spravované identity můžete použít k ověření pomocí databáze SQL pro Hive. Další informace najdete v tématu Použití spravované identity pro ověřování SQL Database v HDInsight.

Výchozí metastore poskytuje databázi SQL s limitem 5 DTU úrovně Basic (nejde upgradovat). Je vhodný pro základní účely testování. Pro velké nebo produkční úlohy doporučujeme migrovat do externího metastoru.

Databáze SQL pro Oozie

Pokud chcete zvýšit výkon při použití Oozie, použijte vlastní metastore. Po odstranění clusteru může metastor také poskytnout přístup k datům úlohy Oozie.

Spravované identity můžete použít k ověření pomocí databáze SQL pro Oozie. Další informace najdete v tématu Použití spravované identity pro ověřování SQL Database v HDInsight.

Databáze SQL pro Ambari

Ambari slouží k monitorování clusterů HDInsight, provádění změn konfigurace a ukládání informací o správě clusteru a historie úloh. Pomocí vlastní funkce databáze Ambari můžete nasadit nový cluster a nastavit Ambari v externí databázi, kterou spravujete. Další informace naleznete v tématu Vlastní databáze Ambari.

Spravované identity můžete použít k ověřování pomocí databáze SQL pro Ambari. Další informace najdete v tématu Použití spravované identity pro ověřování SQL Database v HDInsight.

Nemůžete znovu použít vlastní metastor Oozie. Pokud chcete použít vlastní metastore Oozie, musíte při vytváření clusteru HDInsight poskytnout prázdnou databázi SQL.

Zabezpečení + sítě

Snímek obrazovky znázorňující možnost balíčku zabezpečení organizace

Balíček zabezpečení podniku

U typů clusterů Hadoop, Spark, HBase, Kafka a Interactive Query můžete povolit balíček zabezpečení podniku. Tento balíček nabízí možnost nastavení bezpečnějšího clusteru pomocí Apache Rangeru a integrace s Microsoft Entra. Další informace najdete v tématu Přehled podnikového zabezpečení ve službě Azure HDInsight.

S balíčkem zabezpečení podniku můžete integrovat HDInsight s Microsoft Entra a Apache Ranger. Balíček zabezpečení podniku můžete použít k vytvoření více uživatelů.

Další informace o vytvoření clusteru HDInsight připojeného k doméně najdete v tématu Vytvoření prostředí sandboxu HDInsight připojeného k doméně.

Protokol TLS (Transport Layer Security)

Další informace naleznete v tématu Transport Layer Security.

Virtuální síť

Pokud vaše řešení vyžaduje technologie rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů. Tato konfigurace umožňuje clusterům a veškerý kód, který do nich nasadíte, komunikovat přímo mezi sebou.

Další informace o použití virtuální sítě Azure se službou HDInsight najdete v tématu Plánování virtuální sítě pro HDInsight.

Příklad použití dvou typů clusterů ve virtuální síti Azure najdete v tématu Použití strukturovaného streamování Apache Spark s Apache Kafka. Další informace o používání služby HDInsight s virtuální sítí, včetně konkrétních požadavků na konfiguraci pro virtuální síť, najdete v tématu Plánování virtuální sítě pro HDInsight.

Nastavení šifrování disku

Další informace najdete v tématu Šifrování disku spravovaného zákazníkem.

Proxy REST Kafka

Toto nastavení je k dispozici pouze pro typ clusteru Kafka. Další informace najdete v tématu Použití proxy serveru REST.

Identita

Další informace najdete v tématu Spravované identity ve službě Azure HDInsight.

Konfigurace a ceny

Snímek obrazovky znázorňující výběr velikosti uzlu pro HDInsight

Za využití uzlu se vám účtuje, dokud cluster existuje. Fakturace se spustí při vytvoření clusteru a zastaví se při odstranění clusteru. Clustery se nedají uvolnit ani blokovat.

Konfigurace uzlů

Každý typ clusteru má vlastní počet uzlů, terminologii pro uzly a výchozí velikost virtuálního počítače. V následující tabulce je počet uzlů pro každý typ uzlu uvedený v závorkách.

Typ Uzly Obrázek
Hadoop Hlavní uzel (2), pracovní uzel (1+) Uzly clusteru HDInsight Hadoop
HBase Hlavní server (2), Oblastní server (1+), hlavní uzel/ZooKeeper (3) Nastavení typu clusteru HDInsight HBase
Spark Hlavní uzel (2), pracovní uzel (1+), uzel ZooKeeper (3) (zdarma pro velikost virtuálního počítače ZooKeeper) Nastavení typu clusteru HDInsight Spark

Další informace najdete v tématu Výchozí konfigurace uzlů a velikosti virtuálních počítačů pro clustery.

Náklady na clustery HDInsight určené počtem uzlů a velikostí virtuálních počítačů pro uzly.

Různé typy clusterů mají různé typy uzlů, počet uzlů a velikosti uzlů:

  • Výchozí typ clusteru Hadoop:

    • Dva hlavní uzly
    • Čtyři pracovní uzly

Pokud se pokoušíte hdInsight vyzkoušet, doporučujeme použít jeden pracovní uzel. Další informace o cenách služby HDInsight najdete v tématu Ceny služby HDInsight.

Poznámka:

Limit velikosti clusteru se mezi předplatnými Azure liší. Pokud chcete limit zvýšit, obraťte se na podporu fakturace Azure.

Když ke konfiguraci clusteru použijete Azure Portal, velikost uzlu je k dispozici na kartě Konfigurace a ceny . Na portálu se také zobrazí náklady spojené s různými velikostmi uzlů.

Velikosti virtuálních počítačů

Při nasazování clusterů zvolte výpočetní prostředky na základě řešení, které plánujete nasadit. Pro clustery HDInsight se používají následující virtuální počítače:

Pokud chcete zjistit, jakou hodnotu byste měli použít k určení velikosti virtuálního počítače při vytváření clusteru pomocí různých sad SDK nebo Azure PowerShellu, podívejte se na velikosti virtuálních počítačů, které se mají použít pro clustery HDInsight. V tomto propojeném článku použijte hodnotu ve sloupci Velikost tabulek.

Důležité

Pokud potřebujete v clusteru více než 32 pracovních uzlů, musíte vybrat velikost hlavního uzlu s alespoň 8 jádry a 14 GB paměti RAM.

Další informace najdete v tématu Velikosti virtuálních počítačů. Informace o cenáchrůznýchch

Příloha disku

Poznámka:

Přidané disky se konfigurují jenom pro místní adresáře správce uzlů, a ne pro adresáře datových uzlů.

Cluster HDInsight se dodává s předdefinovaným místem na disku na základě verze. Spuštění některých velkých aplikací může vést k nedostatku místa na disku s chybami LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE a selháními úloh na disku.

Do clusteru můžete přidat další disky pomocí nového místního adresáře NodeManager. V době vytvoření clusteru Hive a Spark můžete vybrat počet disků a přidat je do pracovních uzlů. Vybrané disky můžou mít 1 TB a jsou součástí místních adresářů NodeManager .

  1. Na kartě Konfigurace a ceny vyberte Povolit spravovaný disk.
  2. Z disků Úrovně Standard zadejte počet disků.
  3. Vyberte pracovní uzel.

Počet disků můžete ověřit na kartě Zkontrolovat a vytvořit v části Konfigurace clusteru.

Přidání aplikace

Aplikace HDInsight můžete nainstalovat do clusteru HDInsight založeného na Linuxu. Můžete použít aplikace poskytované společností Microsoft nebo třetími stranami nebo vámi vyvinutými aplikacemi. Další informace najdete v tématu Instalace aplikací Apache Hadoop třetích stran ve službě Azure HDInsight.

Většina aplikací HDInsight se instaluje na prázdný hraniční uzel. Prázdný hraniční uzel je virtuální počítač s Linuxem se stejnými klientskými nástroji nainstalovanými a nakonfigurovanými jako v hlavním uzlu. Hraniční uzel můžete použít pro přístup ke clusteru, testování klientských aplikací a jejich hostování. Další informace najdete v tématu Použití prázdných hraničních uzlů ve službě HDInsight.

Akce skriptů

Během vytváření můžete nainstalovat více komponent nebo přizpůsobit konfiguraci clusteru pomocí skriptů. Tyto skripty se vyvolávají prostřednictvím akcí skriptu, což je možnost konfigurace, kterou můžete použít z webu Azure Portal, rutin prostředí Windows PowerShell služby HDInsight nebo sady HDInsight .NET SDK. Další informace najdete v tématu Přizpůsobení clusteru HDInsight pomocí akcí skriptu.

Některé nativní komponenty Java, jako je Apache Mahout a Cascading, se můžou spouštět v clusteru jako soubory Java Archive (JAR). Tyto soubory JAR můžete distribuovat do úložiště a odesílat je do clusterů HDInsight pomocí mechanismů odesílání úloh Hadoop. Další informace naleznete v tématu Odeslání úloh Apache Hadoop programově.

Poznámka:

Pokud máte problémy s nasazením souborů JAR do clusterů HDInsight nebo voláním souborů JAR v clusterech HDInsight, obraťte se na podpora Microsoftu.

HDInsight nepodporuje kaskádové a nemá nárok na podpora Microsoftu. Seznam podporovaných komponent najdete v tématu Co je nového ve verzích clusteru poskytovaných službou HDInsight.

Někdy chcete během procesu vytváření nakonfigurovat následující konfigurační soubory:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Další informace najdete v tématu Přizpůsobení clusterů HDInsight pomocí bootstrap.