共用方式為


資料總結

本文說明 Azure 機器學習 設計工具的元件。

使用摘要數據元件來建立一組標準統計量值,以描述輸入數據表中的每個數據行。

當您想要瞭解完整數據集的特性時,摘要統計數據很有用。 例如,您可能需要知道:

  • 每個數據行中有多少個遺漏值?
  • 功能數據行中有多少個唯一值?
  • 每個數據行的平均和標準偏差為何?

元件會計算每個數據行的重要分數,並針對提供做為輸入的每個變數(數據行)傳回一列摘要統計數據。

如何設定 Summarize Data

  1. 摘要數據 元件新增至管線。 您可以在設計工具的 [統計函數 ] 類別中找到此元件。

  2. 連接您要產生報表的數據集。

    如果您想要只報告某些資料行,請使用 [ 選取數據集 中的數據行] 元件來投影要處理的數據行子集。

  3. 不需要其他參數。 根據預設,元件會分析提供做為輸入的所有數據行,並根據數據行中的值類型,輸出一組相關的統計數據,如結果一節中所述

  4. 提交管線。

結果

元件的報表可以包含下列統計數據。

資料行名稱 描述
功能 數據行的名稱
Count 所有數據列的計數
唯一值計數 數據行中唯一值的數目
遺漏值計數 數據行中唯一值的數目
Min 數據行中的最小值
Max 數據行中的最大值
平均數 所有數據行值的平均值
平均偏差 數據行值的平均偏差
第1四分位數 第一個四分位數的值
中間值 中位數數據行值
第三四分位數 第三分位數的值
模式 數據行值的模式
範圍 整數,表示最大值與最小值之間的值數目
樣本變異數 數據行的變數;請參閱附注
標準偏差範例 數據行的標準偏差;請參閱附注
範例扭曲 數據行的扭曲性;請參閱附注
範例 Kurtosis 數據行的 Kurtosis;請參閱附注
P0.5 0.5% 百分位數
P1 1% 百分位數
P5 5% 百分位數
P95 95% 百分位數
P99.5 99.5% 百分位數

技術注意事項

  • 針對非數值數據行,只會計算 Count、Unique value count 和 Missing value count 的值。 針對其他統計數據,會傳回 Null 值。

  • 包含布林值的資料列會使用這些規則來處理:

    • 計算 Min 時,會套用邏輯 AND。

    • 計算 Max 時,會套用邏輯 OR

    • 計算範圍時,元件會先檢查數據行中唯一值的數目是否等於 2。

    • 計算任何需要浮點計算的統計數據時,True 的值會視為 1.0,並將 False 的值視為 0.0。

下一步

請參閱 Azure 機器學習 可用的元件集。