Azure Data Factory または Synapse Analytics で Hadoop Hive アクティビティを使用してデータを変換する
適用対象: Azure Data Factory Azure Synapse Analytics
ヒント
企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。
Azure Data Factory または Synapse Analytics パイプラインの HDInsight Hive アクティビティでは、独自のまたはオンデマンドの HDInsight クラスターで Hive クエリを実行します。 この記事は、データ変換とサポートされる変換アクティビティの概要を説明する、 データ変換アクティビティ に関する記事に基づいています。
Azure Data Factory と Synapse Analytics の使用経験がない場合は、この記事を読む前に、Azure Data Factory または Synapse Analytics の概要に関する記事を参照し、データ変換のチュートリアルを実行してください。
UI を使用して HDInsight Hive アクティビティをパイプラインに追加する
パイプラインで Azure Data Lake Analytics に対して HDInsight Hive アクティビティを使用するには、次の手順を実行します。
パイプラインの [アクティビティ] ペイン内で Hive を検索し、Hive アクティビティをパイプライン キャンバスにドラッグします。
まだ選択されていない場合は、キャンバスで新しい Hive アクティビティを選択します。
HDI Cluster タブを選択して、Hive アクティビティの実行に使用する HDInsight クラスターへのリンク サービスを選択または新規作成します。
[スクリプト] タブを選択して、新しいストレージのリンクされたサービスと、スクリプトをホストするストレージの場所内のパスを選択または作成します。
構文
{
"name": "Hive Activity",
"description": "description",
"type": "HDInsightHive",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
構文の詳細
プロパティ | Description | 必須 |
---|---|---|
name | アクティビティの名前 | はい |
description | アクティビティの用途を説明するテキストです。 | いいえ |
type | Hive アクティビティの場合、アクティビティの種類は HDinsightHive です | はい |
linkedServiceName | リンクされたサービスとして登録されている HDInsight クラスターへの参照。 このリンクされたサービスの詳細については、計算のリンクされたサービスに関する記事をご覧ください。 | はい |
scriptLinkedService | 実行する Hiveスクリプトの格納に使用される Azure Storage のリンクされたサービスへの参照。 ここでは Azure Blob Storage および ADLS Gen2 にリンクされたサービスのみがサポートされています。 このリンクされたサービスを指定していない場合は、HDInsight のリンクされたサービスで定義されている Azure Storage のリンクされたサービスが使用されます。 | いいえ |
scriptPath | scriptLinkedService で参照される Azure Storage に格納されているスクリプト ファイルへのパスを指定します。 ファイル名は大文字と小文字が区別されます。 | はい |
getDebugInfo | HDInsight クラスターで使用されている Azure Storage または scriptLinkedService で指定された Azure Storage にログ ファイルがコピーされるタイミングを指定します。 使用できる値は以下の通りです。None、Always、または Failure。 既定値:[なし] : | いいえ |
引数 | Hadoop ジョブの引数の配列を指定します。 引数はコマンド ライン引数として各タスクに渡されます。 | いいえ |
defines | Hive スクリプト内で参照するキーと値のペアとしてパラメーターを指定します。 | いいえ |
queryTimeout | クエリのタイムアウト値 (分単位)。 HDInsight クラスターで Enterprise セキュリティ パッケージが有効になっているときに適用できます。 | いいえ |
注意
queryTimeout の既定値は 120 分です。
関連するコンテンツ
別の手段でデータを変換する方法を説明している次の記事を参照してください。