データ変換を自動化する

7 分

機械学習用のデータを準備することは、効果的なモデルを構築する場合に必要なステップです。 Azure Databricks は、Spark のコンピューティング能力を利用し、大規模なデータセットを効率的に処理して準備できます。

データに関連する機械学習ワークフローの各ステップを Azure Databricks で実行する方法を見てみましょう。

収集したデータを Azure Storage に保存する

さまざまなソースからデータを収集する場合は、Azure Blob Storage や Azure Data Lake などのストレージソリューションにデータを保存することをお勧めします。

データを Azure Databricks に直接保存するのではなく、Azure Storage ソリューションに保存すると、スケーラビリティが向上し、セキュリティが強化され、他の Azure サービスと統合することができます。

Azure Storage ソリューションには、大規模なデータセットを管理するための堅牢かつ柔軟な環境が用意されているので、データを処理と分析にすぐに使用できるようになります。

クラウドストレージのすべての格納データに対するアクセスを管理するには、Unity Catalog を使用します。 Unity Catalog には、すべてのデータ資産に対応する統合ガバナンスソリューションが用意されており、データ資産全体でアクセス許可とアクセス制御を管理できるようになります。

ヒント

詳細については、Unity Catalog を使用してクラウドオブジェクトストレージに接続する方法に関する記事を参照してください

データの確認と準備

データに接続したら、探索的データ分析 (EDA) を介してデータを確認しましょう。その結果に基づいて、欠損データを処理できるようにデータを準備し、特徴エンジニアリングを実行し、モデルのパフォーマンス向上に役立つと思われるその他のデータ変換を実行します。

初期分析では、Databricks ノートブックを使用してデータについて確認し、理解します。 Spark SQL または PySpark を使用すると、大規模なデータセットの操作、データの要約、null 値のチェック、データ分布の把握を行うことができます。

Azure Databricks 内で特徴エンジニアリングを自動化する

Featuretools や AutoFeat などの自動化された特徴エンジニアリングツールとライブラリは、特徴の生成と選択のプロセスを効率化できるので、人気が高まっています。これらのツールはアルゴリズムを使用して、生データから特徴を自動的に作成し、その重要性を評価して、モデリングに最も関連性の高いものを選択します。このアプローチにより、時間を節約し、手動の特徴エンジニアリングへの依存を減らすことができます。

Azure Databricks でデータ変換を自動化する

確認後、パイプラインを設定してデータ変換を自動化することを選択できます。オートメーションを実現する 1 つの方法は、Azure Databricks でジョブを設定してノートブックとスクリプトを自動化することです。 Azure Databricks ジョブを使用すると、ノートブックまたは JAR ファイルをジョブとしてスケジュールして実行できるため、データ処理ワークフローを自動化できます。

Azure Databricks でジョブを設定するには、次のステップを実行します。

ジョブを作成する:Databricks ワークスペースで、[ジョブ] タブに移動し、Create job を選択します。ジョブの名前を指定し、実行するノートブックまたは JAR ファイルを指定します。
ジョブを構成する:クラスターの構成、ジョブの実行スケジュール、依存関係など、ジョブのパラメーターを設定します。ジョブの状態更新に関するメール通知を指定することもできます。
ジョブを実行して監視する:ジョブを構成した後は、手動で実行することや、設定したスケジュールに従って自動実行することもできます。ジョブの進行状況を監視し、ログを表示して、問題があればトラブルシューティングできます。

ヒント

詳細については、Azure Databricks ジョブを作成して実行する方法を参照してください。

または、Azure サービスを使用して自動データパイプラインを作成することもできます。

Azure Data Factory とのデータ統合を自動化する

Azure Data Factory は、データパイプラインを構築および管理するためのツールです。データの移動と変換を調整するためのデータ駆動型ワークフローを作成できます。

Azure Data Factory でデータパイプラインを作成するには、次のステップを実行します。

Data Factory を作成する:Azure portal で、新しい Data Factory インスタンスを作成します。
パイプラインを作成する:Data Factory UI で新しいパイプラインを作成し、それにアクティビティを追加します。アクティビティには、データ移動、データ変換、制御フロー操作が含まれます。
アクティビティを構成する:ソースと宛先のデータストア、変換ロジック、依存関係などの各アクティビティのパラメーターを設定します。
スケジュールと監視:指定した間隔で実行するようにパイプラインをスケジュールし、その実行を監視します。ログを表示し、問題に関するアラートを設定できます。

ヒント

Azure Data Factory の詳細を参照する