データの集計
この記事では、Azure Machine Learning デザイナーのコンポーネントについて説明します。
Summarize Data (データの要約) コンポーネントを使用して、入力テーブル内の各列を記述する一連の標準的な統計的尺度を作成します。
要約統計は、完全なデータセットの特性を理解するのに役立ちます。 たとえば、次のことを知る必要がある場合があります。
- 各列で欠落している値の数はいくつあるか。
- 特徴列にある一意の値の数はいくつか。
- 各列の平均偏差と標準偏差はいくつか。
このコンポーネントは、各列の重要なスコアを計算し、入力として提供された各変数 (データ列) の要約統計の行を返します。
Summarize Data (データの要約) を構成する方法
Summarize Data (データの要約) コンポーネントをパイプラインに追加します。 このコンポーネントは、デザイナーの [Statistical Functions]\(統計関数\) カテゴリにあります。
レポートを生成する対象のデータセットを接続します。
一部の列のみに関するレポートを作成する場合は、Select Columns in Dataset (データセット内の列の選択) コンポーネントを使用して、使用する列のサブセットを指定します。
追加のパラメーターは必要ありません。 既定では、コンポーネントは入力として指定されたすべての列を分析し、列内の値の型に応じて、「結果」セクションで説明されているように、関連する統計のセットを出力します。
パイプラインを送信します。
結果
コンポーネントからのレポートには、次の統計情報を含めることができます。
列名 | 説明 |
---|---|
機能 | 列の名前 |
Count | すべての行の数 |
Unique Value Count (一意の値の数) | 列内の一意の値の数 |
Missing Value Count (欠損値の数) | 列内の一意の値の数 |
Min (最小値) | 列内の最小値 |
Max (最大値) | 列内の最大値 |
Mean (平均値) | すべての列値の平均値 |
Mean Deviation (平均偏差) | 列値の平均偏差 |
1st Quartile (第 1 四分位数) | 第 1 四分位数の値 |
中央値 | 中央の列値 |
3rd Quartile (第 3 四分位数) | 第 3 四分位数の値 |
モード | 列値のモード |
Range | 最大値と最小値の間の値の数を表す整数 |
Sample Variance (サンプル分散) | 列の分散。注を参照。 |
Sample Standard Deviation (サンプル標準偏差) | 列の標準偏差。注を参照。 |
Sample Skewness (サンプル歪度) | 列の歪度。注を参照。 |
Sample Kurtosis (サンプル尖度) | 列の尖度。注を参照。 |
P0.5 | 0.5% パーセンタイル |
P1 | 1% パーセンタイル |
P5 | 5% パーセンタイル |
P95 | 95% パーセンタイル |
P99.5 | 99.5% パーセンタイル |
テクニカル ノート
数値以外の列では、数、一意の値の数、欠損値の数の値のみが計算されます。 他の統計では、null 値が返されます。
ブール値を含む列は、これらのルールを使用して処理されます。
最小の計算時には論理 AND が適用されます。
最大の計算時には論理 OR が適用されます。
範囲の計算時に、コンポーネントはまず、列の一意の値の数が 2 と等しいかどうかを確認します。
浮動小数点演算が必要なすべての統計の計算時には、True の値が 1.0、False の値が 0.0 として扱われます。
次のステップ
Azure Machine Learning で使用できる一連のコンポーネントを参照してください。