データ変換 - 操作
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
この記事では、基本的なデータ操作に使用できる Machine Learning Studio (クラシック) のモジュールについて説明します。
注意
適用対象: Machine Learning Studio (クラシック)のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
Machine Learning Studio (クラシック) では、正規化や機能の選択など、機械学習に固有のタスクがサポートされています。 このカテゴリのモジュールは、より一般的なタスクを対象としています。
データ操作タスク
このカテゴリのモジュールは、Machine Learning Studio (クラシック) で実行する必要のある主要なデータ管理タスクをサポートすることを目的としています。 次のタスクは、主要なデータ管理タスクの例です。
- 結合を使用するか、列または行をマージすることによって、2つのデータセットを結合します。
- データのグループ化に使用する新しいカテゴリを作成します。
- 列見出しの変更、列のデータ型の変更、または特徴またはラベルとしての列のフラグの設定を行います。
- 欠損値を確認し、適切な値に置き換えます。
関連タスク
- サンプリングを実行するか、データセットをトレーニングセットとテストセットに分割する: データ変換-サンプルモジュールと分割 モジュールを使用します。
- 数値のスケール、データの正規化、または数値のビンへの格納: データ変換 を使用します。
- 数値データフィールドに対して計算を実行したり、一般的に使用される統計情報を生成したりする: 統計関数のツールを使用します。
例
機械学習実験で複雑なデータを操作する方法の例については、 Azure AI Galleryの次のサンプルを参照してください。
- データの処理と分析: 主要なツールとプロセスを示します。
- 「 Ast のがんの検出: データセットをパーティション分割し、各パーティションに特別な処理を適用する方法を示します。
このカテゴリのモジュール
データ変換操作カテゴリには、次のモジュールが含まれています。
- 列の追加: あるデータセットから別のデータセットに列のセットを追加します。
- 行の追加: 入力データセットの行セットを別のデータセットの末尾に追加します。
- SQL 変換の適用: 入力データセットに対して SQLite クエリを実行し、データを変換します。
- 欠損データのクリーンアップ: データセットに欠けている値の処理方法を指定します。 このモジュールは、非推奨とされている欠損値削除機能を置き換えます。
- インジケーター値への変換: 列のカテゴリ値をインジケーター値に変換します。
- メタデータの編集: データセット内の列に関連付けられているメタデータを編集します。
- カテゴリ値のグループ化: 複数のカテゴリのデータを新しいカテゴリにグループ化します。
- データの結合: 2 つのデータセットを結合します。
- 重複する行の削除: データセットから重複する行を削除します。
- データセット内の列の選択: データセットに含める列、または操作でデータセットから除外する列を選択します。
- Select Columns Transform: 指定したデータセットと同じ列のサブセットを選択する変換を作成します。
- SMOTE: 合成された少数派オーバーサンプリングを使用して、データセット内の低インシデントの例の数を増やします。