Nastavení clusterů v HDInsight pomocí Apache Hadoopu, Sparku, Kafka a dalších
V tomto článku se dozvíte, jak nastavit a nakonfigurovat Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query nebo Apache HBase ve službě Azure HDInsight. Dozvíte se také, jak přizpůsobit clustery a přidat zabezpečení tím, že je připojíte k doméně.
Cluster Hadoop se skládá z několika virtuálních počítačů (označovaných také jako uzly), které se používají k distribuovanému zpracování úloh. HDInsight zpracovává podrobnosti implementace instalace a konfigurace jednotlivých uzlů. Zadáte pouze obecné informace o konfiguraci.
Důležité
Fakturace clusteru HDInsight se spustí po vytvoření clusteru a zastaví se při odstranění clusteru. Fakturace se účtuje po minutách, takže cluster vždy odstraňte, když už se nepoužívá. Zjistěte, jak odstranit cluster.
Pokud používáte více clusterů společně, chcete vytvořit virtuální síť. Pokud používáte cluster Spark, chcete také použít konektor Hive Warehouse. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse.
Metody nastavení clusteru
Následující tabulka uvádí různé metody, které můžete použít k nastavení clusteru HDInsight.
Clustery vytvořené pomocí | Webový prohlížeč | Příkazový řádek | REST API | Sada SDK |
---|---|---|---|---|
Azure Portal | ✅ | |||
Azure Data Factory | ✅ | ✅ | ✅ | ✅ |
Azure CLI | ✅ | |||
Azure PowerShell | ✅ | |||
cURL | ✅ | ✅ | ||
Šablony Azure Resource Manageru | ✅ |
Tento článek vás provede nastavením na webu Azure Portal, kde můžete vytvořit cluster HDInsight.
Základy
Podrobnosti projektu
Azure Resource Manager vám pomůže pracovat s prostředky ve vaší aplikaci jako se skupinou, která se označuje jako skupina prostředků Azure. Všechny prostředky aplikace můžete nasadit, aktualizovat, monitorovat nebo odstranit v jediné koordinované operaci.
Podrobnosti o clusteru
Podrobnosti o clusteru zahrnují název, oblast, typ a verzi.
Název clusteru
Názvy clusterů HDInsight mají následující omezení:
- Povolené znaky: a-z, 0-9 a A-Z
- Maximální délka: 59
- Rezervované názvy: aplikace
- Pojmenování clusteru: Obor je určený pro všechny Azure napříč všemi předplatnými. Název clusteru musí být jedinečný po celém světě. Prvních šest znaků musí být v rámci virtuální sítě jedinečné.
Oblast
Umístění clusteru nemusíte explicitně zadávat. Cluster je ve stejném umístění jako výchozí úložiště. Pokud chcete zobrazit seznam podporovaných oblastí, vyberte rozevírací seznam Oblastí s cenami služby HDInsight.
Typ clusteru
V následující tabulce hdInsight v současné době poskytuje typy clusterů, z nichž každá má sadu komponent, aby poskytovala určité funkce.
Důležité
Clustery HDInsight jsou k dispozici v různých typech, z nichž každá je určená pro jednu úlohu nebo technologii. Žádná podporovaná metoda vytvoří cluster, který kombinuje více typů, například HBase v jednom clusteru. Pokud vaše řešení vyžaduje technologie rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů.
Typ clusteru | Funkce |
---|---|
Hadoop | Dávkové dotazování a analýza uložených dat |
HBase | Zpracování pro velké objemy bez schématu, data NoSQL. |
Interaktivní dotaz | Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy Hive |
Kafka | Distribuovaná platforma streamování, kterou můžete použít k vytváření datových kanálů a aplikací streamování v reálném čase. |
Spark | Zpracování v paměti, interaktivní dotazy, zpracování mikrodávkových datových proudů |
Verze
Zvolte verzi SLUŽBY HDInsight pro tento cluster. Další informace najdete v části Podporované verze služby HDInsight.
Přihlašovací údaje clusteru
Pomocí clusterů HDInsight můžete během vytváření clusteru nakonfigurovat dva uživatelské účty:
- Uživatelské jméno pro přihlášení ke clusteru: Výchozí uživatelské jméno je správce. Používá základní konfiguraci na webu Azure Portal. Označuje se také jako uživatel clusteru nebo uživatel HTTP.
- Uživatelské jméno Secure Shell (SSH): Slouží k připojení ke clusteru přes SSH. Další informace najdete v tématu Použití SSH se službou HDInsight.
Uživatelské jméno HTTP má následující omezení:
- Povolené speciální znaky: _ a @
- Nepovolené znaky: #;",/:!*?$(){}[]<>|&--=+%~^space
- Maximální délka: 20
Uživatelské jméno SSH má následující omezení:
- Povolené speciální znaky: _ a @
- Nepovolené znaky: #;",/:!*?$(){}[]<>|&--=+%~^space
- Maximální délka: 64
- Rezervované názvy: hadoop, users, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user1, test, user2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, David, guest, John, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark
Úložiště
I když místní instalace Systému Hadoop používá systém SOUBORŮ HDFS (Hadoop Distributed File System) pro úložiště v clusteru, v cloudu používáte koncové body úložiště připojené ke clusteru. Použití cloudového úložiště znamená, že můžete bezpečně odstranit clustery HDInsight používané k výpočtu a přitom zachovat data.
Clustery HDInsight můžou používat následující možnosti úložiště:
- Azure Data Lake Storage Gen2
- Azure Storage pro obecné účely v2
- Objekt blob bloku služby Azure Storage (podporovaný pouze jako sekundární úložiště)
Další informace o možnostech úložiště s HDInsight najdete v tématu Porovnání možností úložiště pro použití s clustery Azure HDInsight.
Použití dalších účtů úložiště v jiném umístění než cluster HDInsight se nepodporuje.
Během konfigurace pro výchozí koncový bod úložiště zadáte kontejner objektů blob účtu úložiště nebo Data Lake Storage. Výchozí úložiště obsahuje protokoly aplikací a systémů. Volitelně můžete zadat více propojených účtů úložiště a účtů Data Lake Storage, ke kterým má cluster přístup. Cluster HDInsight a závislé účty úložiště musí být ve stejném umístění Azure.
Poznámka:
Funkce , která vyžaduje zabezpečený přenos , vynucuje všechny požadavky na váš účet prostřednictvím zabezpečeného připojení. Tuto funkci podporuje pouze cluster HDInsight verze 3.6 nebo novější. Další informace najdete v tématu Vytvoření clusteru Apache Hadoop s účty úložiště zabezpečeného přenosu ve službě Azure HDInsight.
Nepovolujte zabezpečený přenos úložiště po vytvoření clusteru, protože použití účtu úložiště může vést k chybám. Je lepší vytvořit nový cluster pomocí účtu úložiště s povoleným zabezpečeným přenosem.
HDInsight automaticky nepřenese, nepřesune nebo zkopíruje data uložená v úložišti z jedné oblasti do druhé.
Nastavení metastoru
Můžete vytvořit volitelné metastory Hive nebo Apache Oozie. Ne všechny typy clusterů podporují metastory a Azure Synapse Analytics není kompatibilní s metastory.
Další informace najdete v tématu Použití externích úložišť metadat ve službě Azure HDInsight.
Při vytváření vlastního metastoru nepoužívejte pomlčky, pomlčky ani mezery v názvu databáze. Tyto znaky můžou způsobit selhání procesu vytváření clusteru.
Databáze SQL pro Hive
Pokud chcete zachovat tabulky Hive po odstranění clusteru HDInsight, použijte vlastní metastore. Pak můžete metastor připojit k jinému clusteru HDInsight.
Metastor HDInsight vytvořený pro jednu verzi clusteru HDInsight nejde sdílet napříč různými verzemi clusteru HDInsight. Seznam verzí HDInsight najdete v tématu Podporované verze SLUŽBY HDInsight.
Spravované identity můžete použít k ověření pomocí databáze SQL pro Hive. Další informace najdete v tématu Použití spravované identity pro ověřování SQL Database v HDInsight.
Výchozí metastore poskytuje databázi SQL s limitem 5 DTU úrovně Basic (nejde upgradovat). Je vhodný pro základní účely testování. Pro velké nebo produkční úlohy doporučujeme migrovat do externího metastoru.
Databáze SQL pro Oozie
Pokud chcete zvýšit výkon při použití Oozie, použijte vlastní metastore. Po odstranění clusteru může metastor také poskytnout přístup k datům úlohy Oozie.
Spravované identity můžete použít k ověření pomocí databáze SQL pro Oozie. Další informace najdete v tématu Použití spravované identity pro ověřování SQL Database v HDInsight.
Databáze SQL pro Ambari
Ambari slouží k monitorování clusterů HDInsight, provádění změn konfigurace a ukládání informací o správě clusteru a historie úloh. Pomocí vlastní funkce databáze Ambari můžete nasadit nový cluster a nastavit Ambari v externí databázi, kterou spravujete. Další informace naleznete v tématu Vlastní databáze Ambari.
Spravované identity můžete použít k ověřování pomocí databáze SQL pro Ambari. Další informace najdete v tématu Použití spravované identity pro ověřování SQL Database v HDInsight.
Nemůžete znovu použít vlastní metastor Oozie. Pokud chcete použít vlastní metastore Oozie, musíte při vytváření clusteru HDInsight poskytnout prázdnou databázi SQL.
Zabezpečení + sítě
Balíček zabezpečení podniku
U typů clusterů Hadoop, Spark, HBase, Kafka a Interactive Query můžete povolit balíček zabezpečení podniku. Tento balíček nabízí možnost nastavení bezpečnějšího clusteru pomocí Apache Rangeru a integrace s Microsoft Entra. Další informace najdete v tématu Přehled podnikového zabezpečení ve službě Azure HDInsight.
S balíčkem zabezpečení podniku můžete integrovat HDInsight s Microsoft Entra a Apache Ranger. Balíček zabezpečení podniku můžete použít k vytvoření více uživatelů.
Další informace o vytvoření clusteru HDInsight připojeného k doméně najdete v tématu Vytvoření prostředí sandboxu HDInsight připojeného k doméně.
Protokol TLS (Transport Layer Security)
Další informace naleznete v tématu Transport Layer Security.
Virtuální síť
Pokud vaše řešení vyžaduje technologie rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů. Tato konfigurace umožňuje clusterům a veškerý kód, který do nich nasadíte, komunikovat přímo mezi sebou.
Další informace o použití virtuální sítě Azure se službou HDInsight najdete v tématu Plánování virtuální sítě pro HDInsight.
Příklad použití dvou typů clusterů ve virtuální síti Azure najdete v tématu Použití strukturovaného streamování Apache Spark s Apache Kafka. Další informace o používání služby HDInsight s virtuální sítí, včetně konkrétních požadavků na konfiguraci pro virtuální síť, najdete v tématu Plánování virtuální sítě pro HDInsight.
Nastavení šifrování disku
Další informace najdete v tématu Šifrování disku spravovaného zákazníkem.
Proxy REST Kafka
Toto nastavení je k dispozici pouze pro typ clusteru Kafka. Další informace najdete v tématu Použití proxy serveru REST.
Identita
Další informace najdete v tématu Spravované identity ve službě Azure HDInsight.
Konfigurace a ceny
Za využití uzlu se vám účtuje, dokud cluster existuje. Fakturace se spustí při vytvoření clusteru a zastaví se při odstranění clusteru. Clustery se nedají uvolnit ani blokovat.
Konfigurace uzlů
Každý typ clusteru má vlastní počet uzlů, terminologii pro uzly a výchozí velikost virtuálního počítače. V následující tabulce je počet uzlů pro každý typ uzlu uvedený v závorkách.
Typ | Uzly | Obrázek |
---|---|---|
Hadoop | Hlavní uzel (2), pracovní uzel (1+) |
![]() |
HBase | Hlavní server (2), Oblastní server (1+), hlavní uzel/ZooKeeper (3) |
![]() |
Spark | Hlavní uzel (2), pracovní uzel (1+), uzel ZooKeeper (3) (zdarma pro velikost virtuálního počítače ZooKeeper) |
![]() |
Další informace najdete v tématu Výchozí konfigurace uzlů a velikosti virtuálních počítačů pro clustery.
Náklady na clustery HDInsight určené počtem uzlů a velikostí virtuálních počítačů pro uzly.
Různé typy clusterů mají různé typy uzlů, počet uzlů a velikosti uzlů:
Výchozí typ clusteru Hadoop:
- Dva hlavní uzly
- Čtyři pracovní uzly
Pokud se pokoušíte hdInsight vyzkoušet, doporučujeme použít jeden pracovní uzel. Další informace o cenách služby HDInsight najdete v tématu Ceny služby HDInsight.
Poznámka:
Limit velikosti clusteru se mezi předplatnými Azure liší. Pokud chcete limit zvýšit, obraťte se na podporu fakturace Azure.
Když ke konfiguraci clusteru použijete Azure Portal, velikost uzlu je k dispozici na kartě Konfigurace a ceny . Na portálu se také zobrazí náklady spojené s různými velikostmi uzlů.
Velikosti virtuálních počítačů
Při nasazování clusterů zvolte výpočetní prostředky na základě řešení, které plánujete nasadit. Pro clustery HDInsight se používají následující virtuální počítače:
- Virtuální počítače řady A a D1-4: Velikosti virtuálních počítačů s Linuxem pro obecné účely
- Virtuální počítač řady D11-14: Velikosti virtuálních počítačů s Linuxem optimalizované pro paměť
Pokud chcete zjistit, jakou hodnotu byste měli použít k určení velikosti virtuálního počítače při vytváření clusteru pomocí různých sad SDK nebo Azure PowerShellu, podívejte se na velikosti virtuálních počítačů, které se mají použít pro clustery HDInsight. V tomto propojeném článku použijte hodnotu ve sloupci Velikost tabulek.
Důležité
Pokud potřebujete v clusteru více než 32 pracovních uzlů, musíte vybrat velikost hlavního uzlu s alespoň 8 jádry a 14 GB paměti RAM.
Další informace najdete v tématu Velikosti virtuálních počítačů. Informace o cenáchrůznýchch
Příloha disku
Poznámka:
Přidané disky se konfigurují jenom pro místní adresáře správce uzlů, a ne pro adresáře datových uzlů.
Cluster HDInsight se dodává s předdefinovaným místem na disku na základě verze. Spuštění některých velkých aplikací může vést k nedostatku místa na disku s chybami LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE
a selháními úloh na disku.
Do clusteru můžete přidat další disky pomocí nového místního adresáře NodeManager. V době vytvoření clusteru Hive a Spark můžete vybrat počet disků a přidat je do pracovních uzlů. Vybrané disky můžou mít 1 TB a jsou součástí místních adresářů NodeManager .
- Na kartě Konfigurace a ceny vyberte Povolit spravovaný disk.
- Z disků Úrovně Standard zadejte počet disků.
- Vyberte pracovní uzel.
Počet disků můžete ověřit na kartě Zkontrolovat a vytvořit v části Konfigurace clusteru.
Přidání aplikace
Aplikace HDInsight můžete nainstalovat do clusteru HDInsight založeného na Linuxu. Můžete použít aplikace poskytované společností Microsoft nebo třetími stranami nebo vámi vyvinutými aplikacemi. Další informace najdete v tématu Instalace aplikací Apache Hadoop třetích stran ve službě Azure HDInsight.
Většina aplikací HDInsight se instaluje na prázdný hraniční uzel. Prázdný hraniční uzel je virtuální počítač s Linuxem se stejnými klientskými nástroji nainstalovanými a nakonfigurovanými jako v hlavním uzlu. Hraniční uzel můžete použít pro přístup ke clusteru, testování klientských aplikací a jejich hostování. Další informace najdete v tématu Použití prázdných hraničních uzlů ve službě HDInsight.
Akce skriptů
Během vytváření můžete nainstalovat více komponent nebo přizpůsobit konfiguraci clusteru pomocí skriptů. Tyto skripty se vyvolávají prostřednictvím akcí skriptu, což je možnost konfigurace, kterou můžete použít z webu Azure Portal, rutin prostředí Windows PowerShell služby HDInsight nebo sady HDInsight .NET SDK. Další informace najdete v tématu Přizpůsobení clusteru HDInsight pomocí akcí skriptu.
Některé nativní komponenty Java, jako je Apache Mahout a Cascading, se můžou spouštět v clusteru jako soubory Java Archive (JAR). Tyto soubory JAR můžete distribuovat do úložiště a odesílat je do clusterů HDInsight pomocí mechanismů odesílání úloh Hadoop. Další informace naleznete v tématu Odeslání úloh Apache Hadoop programově.
Poznámka:
Pokud máte problémy s nasazením souborů JAR do clusterů HDInsight nebo voláním souborů JAR v clusterech HDInsight, obraťte se na podpora Microsoftu.
HDInsight nepodporuje kaskádové a nemá nárok na podpora Microsoftu. Seznam podporovaných komponent najdete v tématu Co je nového ve verzích clusteru poskytovaných službou HDInsight.
Někdy chcete během procesu vytváření nakonfigurovat následující konfigurační soubory:
- clusterIdentity.xml
- core-site.xml
- gateway.xml
- hbase-env.xml
- hbase-site.xml
- hdfs-site.xml
- hive-env.xml
- hive-site.xml
- mapred-site
- oozie-site.xml
- oozie-env.xml
- tez-site.xml
- webhcat-site.xml
- yarn-site.xml
Další informace najdete v tématu Přizpůsobení clusterů HDInsight pomocí bootstrap.