Gegevens transformeren met behulp van Hadoop Hive-activiteit in Azure Data Factory of Synapse Analytics
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
De HDInsight Hive-activiteit in een Azure Data Factory- of Synapse Analytics-pijplijn voert Hive-query's uit op uw eigen of on-demand HDInsight-cluster. Dit artikel is gebaseerd op het artikel over activiteiten voor gegevenstransformatie , waarin een algemeen overzicht wordt weergegeven van de gegevenstransformatie en de ondersteunde transformatieactiviteiten.
Als u geen kennis hebt met Azure Data Factory en Synapse Analytics, leest u de inleidende artikelen voor Azure Data Factory of Synapse Analytics en voert u de zelfstudie uit: gegevens transformeren voordat u dit artikel leest.
Een HDInsight Hive-activiteit toevoegen aan een pijplijn met de gebruikersinterface
Voer de volgende stappen uit om een HDInsight Hive-activiteit te gebruiken voor Azure Data Lake Analytics in een pijplijn:
Zoek naar Hive in het deelvenster Pijplijnactiviteiten en sleep een Hive-activiteit naar het pijplijncanvas.
Selecteer de nieuwe Hive-activiteit op het canvas als deze nog niet is geselecteerd.
Selecteer het tabblad HDI-cluster om een nieuwe gekoppelde service te selecteren of te maken voor een HDInsight-cluster dat wordt gebruikt om de Hive-activiteit uit te voeren.
Selecteer het tabblad Script om een nieuwe gekoppelde opslagservice te selecteren of te maken, en een pad binnen de opslaglocatie, waarop het script wordt gehost.
Syntaxis
{
"name": "Hive Activity",
"description": "description",
"type": "HDInsightHive",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveScript.hql",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Syntaxisdetails
Eigenschappen | Beschrijving | Vereist |
---|---|---|
naam | Naam van de activiteit | Ja |
beschrijving | Tekst waarin wordt beschreven waarvoor de activiteit wordt gebruikt | Nee |
type | Voor Hive-activiteit is het activiteitstype HDinsightHive | Ja |
linkedServiceName | Verwijzing naar het HDInsight-cluster dat is geregistreerd als een gekoppelde service. Zie het artikel Gekoppelde services berekenen voor meer informatie over deze gekoppelde service. | Ja |
scriptLinkedService | Verwijzing naar een gekoppelde Azure Storage-service die wordt gebruikt om het Hive-script op te slaan dat moet worden uitgevoerd. Hier worden alleen gekoppelde Azure Blob Storage- en ADLS Gen2-services ondersteund. Als u deze gekoppelde service niet opgeeft, wordt de gekoppelde Azure Storage-service die is gedefinieerd in de gekoppelde HDInsight-service gebruikt. | Nee |
scriptPath | Geef het pad op naar het scriptbestand dat is opgeslagen in Azure Storage waarnaar wordt verwezen door scriptLinkedService. De bestandsnaam is hoofdlettergevoelig. | Ja |
getDebugInfo | Hiermee geeft u op wanneer de logboekbestanden worden gekopieerd naar de Azure Storage die wordt gebruikt door het HDInsight-cluster (of) dat is opgegeven door scriptLinkedService. Toegestane waarden: Geen, Altijd of Fout. Standaardwaarde: Geen. | Nee |
Argumenten | Hiermee geeft u een matrix van argumenten voor een Hadoop-taak. De argumenten worden doorgegeven als opdrachtregelargumenten aan elke taak. | Nee |
Definieert | Geef parameters op als sleutel-waardeparen voor verwijzingen in het Hive-script. | Nee |
queryTimeout | Time-outwaarde van query (in minuten). Van toepassing wanneer het HDInsight-cluster is ingeschakeld voor Enterprise Security Package. | Nr. |
Notitie
De standaardwaarde voor queryTimeout is 120 minuten.
Gerelateerde inhoud
Zie de volgende artikelen waarin wordt uitgelegd hoe u gegevens op andere manieren kunt transformeren: