資料總結
本文說明 Azure 機器學習 設計工具的元件。
使用摘要數據元件來建立一組標準統計量值,以描述輸入數據表中的每個數據行。
當您想要瞭解完整數據集的特性時,摘要統計數據很有用。 例如,您可能需要知道:
- 每個數據行中有多少個遺漏值?
- 功能數據行中有多少個唯一值?
- 每個數據行的平均和標準偏差為何?
元件會計算每個數據行的重要分數,並針對提供做為輸入的每個變數(數據行)傳回一列摘要統計數據。
如何設定 Summarize Data
將 摘要數據 元件新增至管線。 您可以在設計工具的 [統計函數 ] 類別中找到此元件。
連接您要產生報表的數據集。
如果您想要只報告某些資料行,請使用 [ 選取數據集 中的數據行] 元件來投影要處理的數據行子集。
不需要其他參數。 根據預設,元件會分析提供做為輸入的所有數據行,並根據數據行中的值類型,輸出一組相關的統計數據,如結果一節中所述。
提交管線。
結果
元件的報表可以包含下列統計數據。
資料行名稱 | 描述 |
---|---|
功能 | 數據行的名稱 |
Count | 所有數據列的計數 |
唯一值計數 | 數據行中唯一值的數目 |
遺漏值計數 | 數據行中唯一值的數目 |
Min | 數據行中的最小值 |
Max | 數據行中的最大值 |
平均數 | 所有數據行值的平均值 |
平均偏差 | 數據行值的平均偏差 |
第1四分位數 | 第一個四分位數的值 |
中間值 | 中位數數據行值 |
第三四分位數 | 第三分位數的值 |
模式 | 數據行值的模式 |
範圍 | 整數,表示最大值與最小值之間的值數目 |
樣本變異數 | 數據行的變數;請參閱附注 |
標準偏差範例 | 數據行的標準偏差;請參閱附注 |
範例扭曲 | 數據行的扭曲性;請參閱附注 |
範例 Kurtosis | 數據行的 Kurtosis;請參閱附注 |
P0.5 | 0.5% 百分位數 |
P1 | 1% 百分位數 |
P5 | 5% 百分位數 |
P95 | 95% 百分位數 |
P99.5 | 99.5% 百分位數 |
技術注意事項
針對非數值數據行,只會計算 Count、Unique value count 和 Missing value count 的值。 針對其他統計數據,會傳回 Null 值。
包含布林值的資料列會使用這些規則來處理:
計算 Min 時,會套用邏輯 AND。
計算 Max 時,會套用邏輯 OR
計算範圍時,元件會先檢查數據行中唯一值的數目是否等於 2。
計算任何需要浮點計算的統計數據時,True 的值會視為 1.0,並將 False 的值視為 0.0。