Transformace dat spuštěním aktivity Azure HDInsight
Aktivita Azure HDInsight ve službě Data Factory pro Microsoft Fabric umožňuje orchestrovat následující typy úloh Azure HDInsight:
- Spouštění dotazů Hive
- Vyvolání programu MapReduce
- Spouštění dotazů Pig
- Spuštění programu Spark
- Spuštění programu Hadoop Stream
Tento článek obsahuje podrobný návod, který popisuje, jak vytvořit aktivitu Azure HDInsight pomocí rozhraní služby Data Factory.
Požadavky
Abyste mohli začít, musíte splnit následující požadavky:
- Účet tenanta s aktivním předplatným. Vytvoření účtu zdarma
- Vytvoří se pracovní prostor.
Přidání aktivity Azure HDInsight (HDI) do kanálu s uživatelským rozhraním
Vytvořte v pracovním prostoru nový datový kanál.
Na kartě domovské obrazovky vyhledejte Azure HDInsight a vyberte ji nebo vyberte aktivitu z panelu aktivit a přidejte ji na plátno kanálu.
Pokud ještě není vybraná, vyberte na plátně editoru kanálů novou aktivitu Azure HDInsight.
Konfigurace clusteru HDI
Vyberte kartu Cluster HDI. Pak můžete zvolit existující nebo vytvořit nové připojení HDInsight.
Pro připojení k prostředkům zvolte službu Azure Blob Storage, která odkazuje na váš cluster Azure HDInsight. Můžete zvolit existující úložiště objektů blob nebo vytvořit nové.
Konfigurace nastavení
Výběrem karty Nastavení zobrazíte upřesňující nastavení aktivity.
Všechny pokročilé vlastnosti clusteru a dynamické výrazy podporované v propojené službě Azure Data Factory a Synapse Analytics HDInsight se teď podporují také v aktivitě Azure HDInsight pro službu Data Factory v Microsoft Fabric v části Upřesnit v uživatelském rozhraní. Všechny tyto vlastnosti podporují snadno použitelné vlastní parametrizované výrazy s dynamickým obsahem.
Typ clusteru
Pokud chcete nakonfigurovat nastavení clusteru HDInsight, vyberte nejprve jeho typ z dostupných možností, včetně Hive, Map Reduce, Pig, Spark a Streaming.
Hive
Pokud jako typ zvolíte Hive, aktivita spustí dotaz Hive. Volitelně můžete zadat připojení skriptu odkazující na účet úložiště, který obsahuje typ Hive. Ve výchozím nastavení se používá připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat cestu k souboru, která se má spustit ve službě Azure HDInsight. Volitelně můžete zadat další konfigurace v části Upřesnit, informace o ladění, vypršení časového limitu dotazu, argumenty, parametry a proměnné.
Mapové redukce
Pokud zvolíte Map Reduce for Type(Snížit typ), aktivita vyvolá program mapového redukce. Volitelně můžete zadat připojení Jar odkazující na účet úložiště, který obsahuje typ Redukce mapování. Ve výchozím nastavení se použije připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat název třídy a cestu k souboru, které se mají spustit ve službě Azure HDInsight. Volitelně můžete zadat další podrobnosti o konfiguraci, jako je import knihoven Jar, informace o ladění, argumenty a parametry v části Upřesnit .
Pig
Pokud jako typ zvolíte Pig, aktivita vyvolá dotaz Pig. Volitelně můžete zadat nastavení připojení skriptu, které odkazuje na účet úložiště, který obsahuje typ Pig. Ve výchozím nastavení se použije připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat cestu k souboru, která se má spustit ve službě Azure HDInsight. Volitelně můžete zadat další konfigurace, například informace o ladění, argumenty, parametry a proměnné v části Upřesnit .
Spark
Pokud zvolíte Spark pro Typ, aktivita vyvolá program Spark. Jako typ Sparku vyberte buď Skript, nebo Jar. Volitelně můžete zadat připojení úlohy odkazující na účet úložiště, který obsahuje typ Sparku. Ve výchozím nastavení se použije připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat cestu k souboru, která se má spustit ve službě Azure HDInsight. Volitelně můžete zadat více konfigurací, jako je název třídy, uživatel proxy serveru, informace o ladění, argumenty a konfigurace sparku v části Upřesnit.
Streamování
Pokud zvolíte Streamování pro typ, aktivita vyvolá program streamování. Zadejte názvy Mapper a Reducer a volitelně můžete zadat připojení k souboru odkazující na účet úložiště, který obsahuje typ streamování. Ve výchozím nastavení se použije připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat cestu k souboru pro mapovač a cestu k souboru pro redukční nástroj , který se má spustit ve službě Azure HDInsight. Zahrňte také možnosti Vstupu a výstupu pro cestu WASB. Volitelně můžete v části Upřesnit zadat další konfigurace, například informace o ladění, argumenty a parametry.
Referenční dokumentace k vlastnostem
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | U aktivity streamování Hadoop je typ aktivity HDInsightStreaming. | Ano |
kartograf | Určuje název spustitelného souboru mapperu. | Ano |
reduktor | Určuje název spustitelného souboru redukčního souboru. | Ano |
kombinační funkce | Určuje název spustitelného souboru kombinátoru. | No |
připojení k souboru | Odkaz na propojenou službu Azure Storage, která slouží k ukládání programů Mapper, Combiner a Reducer, které se mají spustit. | No |
Tady se podporují jenom připojení Azure Blob Storage a ADLS Gen2. Pokud toto připojení nezadáte, použije se připojení úložiště definované v připojení HDInsight. | ||
filePath | Zadejte pole cesty k programům Mapper, Combiner a Reducer uloženým ve službě Azure Storage, na kterou odkazuje připojení k souborům. | Ano |
input | Určuje cestu WASB ke vstupnímu souboru mapperu. | Ano |
output | Určuje cestu WASB k výstupnímu souboru redukce. | Ano |
getDebugInfo | Určuje, kdy se soubory protokolu zkopírují do služby Azure Storage používané clusterem HDInsight (nebo) určeným scriptLinkedService. | No |
Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný. | ||
argumenty | Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. | No |
definuje | Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Hive. | No |
Uložení a spuštění nebo naplánování kanálu
Jakmile nakonfigurujete všechny další aktivity potřebné pro váš kanál, přepněte na kartu Domů v horní části editoru kanálů a výběrem tlačítka Uložit kanál uložte. Vyberte Spustit a spusťte ho přímo nebo naplánujte jeho naplánování. Historii spuštění můžete zobrazit také tady nebo nakonfigurovat další nastavení.