Gegevens transformeren door een Azure HDInsight-activiteit uit te voeren

Artikel
05/21/2024

Met de Azure HDInsight-activiteit in Data Factory voor Microsoft Fabric kunt u de volgende Azure HDInsight-taaktypen indelen:

Hive-query's uitvoeren
Een MapReduce-programma aanroepen
Pig-query's uitvoeren
Een Spark-programma uitvoeren
Een Hadoop Stream-programma uitvoeren

Dit artikel bevat een stapsgewijze handleiding waarin wordt beschreven hoe u een Azure HDInsight-activiteit maakt met behulp van de Data Factory-interface.

Vereisten

Om aan de slag te gaan, moet u aan de volgende vereisten voldoen:

Een tenantaccount met een actief abonnement. Gratis een account maken
Er wordt een werkruimte gemaakt.

Een Azure HDInsight-activiteit (HDI) toevoegen aan een pijplijn met ui

Maak een nieuwe gegevenspijplijn in uw werkruimte.
Zoek op de startpagina naar Azure HDInsight en selecteer deze of selecteer de activiteit op de balk Activiteiten om deze toe te voegen aan het pijplijncanvas.
- De activiteit maken op basis van de kaart van het startscherm:
- De activiteit maken vanuit de activiteitenbalk:
Selecteer de nieuwe Azure HDInsight-activiteit op het canvas van de pijplijneditor als deze nog niet is geselecteerd.

Raadpleeg de richtlijnen voor algemene instellingen voor het configureren van de opties op het tabblad Algemene instellingen .

Het HDI-cluster configureren

Selecteer het tabblad HDI-cluster . Vervolgens kunt u een bestaande of een nieuwe HDInsight-verbinding maken.
Kies voor de resourceverbinding de Azure Blob Storage die verwijst naar uw Azure HDInsight-cluster. U kunt een bestaand Blob-archief kiezen of een nieuwe maken.

Instellingen configureren

Selecteer het tabblad Instellingen om de geavanceerde instellingen voor de activiteit weer te geven.

Schermopname van het tabblad Instellingen van de azure HDInsight-activiteitseigenschappen in het venster pijplijneditor. .

Alle geavanceerde clustereigenschappen en dynamische expressies die worden ondersteund in de gekoppelde Azure Data Factory- en Synapse Analytics HDInsight-service , worden nu ook ondersteund in de Azure HDInsight-activiteit voor Data Factory in Microsoft Fabric, onder de sectie Geavanceerd in de gebruikersinterface. Deze eigenschappen ondersteunen eenvoudig te gebruiken aangepaste, geparameteriseerde expressies met dynamische inhoud.

Clustertype

Als u instellingen voor uw HDInsight-cluster wilt configureren, kiest u eerst het type uit de beschikbare opties, waaronder Hive, Kaart reduce, Pig, Spark en Streaming.

Hive

Als u Hive kiest voor Type, wordt met de activiteit een Hive-query uitgevoerd. U kunt desgewenst de scriptverbinding opgeven die verwijst naar een opslagaccount dat het Hive-type bevat. Standaard wordt de opslagverbinding die u hebt opgegeven op het tabblad HDI-cluster gebruikt. U moet opgeven welk bestandspad moet worden uitgevoerd in Azure HDInsight. U kunt desgewenst meer configuraties opgeven in de sectie Geavanceerd , foutopsporingsgegevens, time-out van query's, argumenten, parameters en variabelen.

Schermopname van het clustertype Hive.

Kaart reduce

Als u Map Reduce voor Type kiest, roept de activiteit een Programma voor Kaart reduce aan. U kunt desgewenst opgeven in de Jar-verbinding die verwijst naar een opslagaccount met het type Toewijzings reduce. Standaard wordt de opslagverbinding die u hebt opgegeven op het tabblad HDI-cluster gebruikt. U moet de klassenaam en het bestandspad opgeven dat moet worden uitgevoerd in Azure HDInsight. U kunt desgewenst meer configuratiedetails opgeven, zoals het importeren van Jar-bibliotheken, foutopsporingsgegevens, argumenten en parameters onder de sectie Geavanceerd .

Schermopname van de selectie van Map Reduce voor het HDInsight-clustertype.

Pig

Als u Pig kiest voor Type, roept de activiteit een Pig-query aan. U kunt desgewenst de scriptverbindingsinstelling opgeven die verwijst naar het opslagaccount dat het pig-type bevat. Standaard wordt de opslagverbinding die u hebt opgegeven op het tabblad HDI-cluster gebruikt. U moet opgeven welk bestandspad moet worden uitgevoerd in Azure HDInsight. U kunt desgewenst meer configuraties opgeven, zoals foutopsporingsgegevens, argumenten, parameters en variabelen in de sectie Geavanceerd .

Schermopname van de selectie van het Pig-type voor het HDInsight-cluster.

Spark

Als u Spark kiest voor Type, roept de activiteit een Spark-programma aan. Selecteer Script of Jar voor het Spark-type. U kunt desgewenst de taakverbinding opgeven die verwijst naar het opslagaccount dat het Spark-type bevat. Standaard wordt de opslagverbinding die u hebt opgegeven op het tabblad HDI-cluster gebruikt. U moet opgeven welk bestandspad moet worden uitgevoerd in Azure HDInsight. U kunt desgewenst meer configuraties opgeven, zoals klassenaam, proxygebruiker, foutopsporingsgegevens, argumenten en spark-configuratie in de sectie Geavanceerd.

Schermopname van de selectie van het Spark-type voor het HDInsight-cluster.

Streaming

Als u Streaming voor Type kiest, roept de activiteit een streamingprogramma aan. Geef de namen van Mapper en Reducer op en u kunt desgewenst de bestandsverbinding opgeven die verwijst naar het opslagaccount dat het streamingtype bevat. Standaard wordt de opslagverbinding die u hebt opgegeven op het tabblad HDI-cluster gebruikt. U moet het bestandspad voor Mapper en het bestandspad opgeven om Reducer uit te voeren in Azure HDInsight. Neem ook de invoer- en uitvoeropties voor het WASB-pad op. U kunt desgewenst meer configuraties opgeven, zoals foutopsporingsgegevens, argumenten en parameters in de sectie Geavanceerd.

Schermopname van de selectie van het streamingtype voor het HDInsight-cluster.

Naslaginformatie over eigenschappen

Eigenschappen	Beschrijving	Vereist
type	Voor Hadoop Streaming-activiteit is het activiteitstype HDInsightStreaming	Ja
Mapper	Hiermee geeft u de naam van het uitvoerbare mapper-bestand	Ja
Reducer	Hiermee geeft u de naam van het uitvoerbare reductieprogramma	Ja
combinatie	Hiermee geeft u de naam van het uitvoerbare combinatieprogramma	Nee
bestandsverbinding	Verwijzing naar een gekoppelde Azure Storage-service die wordt gebruikt om de Mapper-, Combiner- en Reducer-programma's op te slaan die moeten worden uitgevoerd.	Nee
	Hier worden alleen Azure Blob Storage- en ADLS Gen2-verbindingen ondersteund. Als u deze verbinding niet opgeeft, wordt de opslagverbinding die is gedefinieerd in de HDInsight-verbinding gebruikt.
filePath	Geef een matrix van pad op naar de Mapper-, Combiner- en Reducer-programma's die zijn opgeslagen in Azure Storage waarnaar wordt verwezen door de bestandsverbinding.	Ja
input	Hiermee geeft u het WASB-pad naar het invoerbestand voor mapper.	Ja
output	Hiermee geeft u het WASB-pad naar het uitvoerbestand voor de reducer.	Ja
getDebugInfo	Hiermee geeft u op wanneer de logboekbestanden worden gekopieerd naar de Azure Storage die wordt gebruikt door het HDInsight-cluster (of) dat is opgegeven door scriptLinkedService.	Nee
	Toegestane waarden: Geen, Altijd of Fout. Standaardwaarde: Geen.
Argumenten	Hiermee geeft u een matrix van argumenten voor een Hadoop-taak. De argumenten worden doorgegeven als opdrachtregelargumenten aan elke taak.	Nee
Definieert	Geef parameters op als sleutel-waardeparen voor verwijzingen in het Hive-script.	Nee

De pijplijn opslaan en uitvoeren of plannen

Nadat u andere activiteiten hebt geconfigureerd die vereist zijn voor uw pijplijn, gaat u naar het tabblad Start boven aan de pijplijneditor en selecteert u de knop Opslaan om uw pijplijn op te slaan. Selecteer Uitvoeren om het rechtstreeks uit te voeren of Plan om deze te plannen. U kunt hier ook de uitvoeringsgeschiedenis bekijken of andere instellingen configureren.

Schermopname van het tabblad Start van de pijplijneditor, waarbij de knoppen Opslaan, Uitvoeren en Planning worden gemarkeerd.

Pijplijnuitvoeringen bewaken

Delen via

Gegevens transformeren door een Azure HDInsight-activiteit uit te voeren

Vereisten

Een Azure HDInsight-activiteit (HDI) toevoegen aan een pijplijn met ui

Het HDI-cluster configureren