資料總結
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
針對資料集內的資料行產生基本描述性統計資料報告
Category: 統計函數
模組概觀
本文說明如何使用機器學習 Studio (傳統) 中的「摘要資料」模組來建立一組標準統計量值,以描述輸入資料表中的每個資料行。
當您想要瞭解完整資料集的特性時,這類摘要統計資料會很有用。 例如,您可能需要知道:
- 每個資料行中遺漏多少值?
- 特徵資料行中有多少個唯一值?
- 每個資料行的平均值和標準差為何?
此模組會計算每個資料行的重要分數,並傳回每個變數 (資料行的摘要統計資料列,) 提供作為輸入。
提示
您可能已經知道可以使用 Studio (傳統) 中的 [ 視覺化 ] 選項來取得統計資料的簡短清單。 不過,此視覺效果是根據一些最上層的資料列來建立。 相反地, 摘要資料 模組會計算資料的所有資料列的統計資料。
如何使用摘要資料
將 摘要資料 模組新增至您的實驗。 您可以在 Studio (傳統) 的 統計函數 類別中找到此模組。
連線您想要產生報表的資料集。
如果您只想要報告某些資料行,請使用 [ 資料集模組中的選取資料行 ] 來投影要使用的資料行子集。
不需要任何其他參數。 依預設,此模組會分析提供做為輸入的所有資料行,並根據資料行中的數值型別,輸出一組相關的統計資料,如 [ 結果 ] 區段中所述。
執行實驗,或以滑鼠右鍵按一下模組,然後選取 [ 執行選取的]。
結果
模組中的報表可以包含下列統計資料。
產生的確切統計資料取決於資料行資料類型。 如需詳細資訊,請參閱 技術 提示一節。
假設這些實例屬於擴展的代表性樣本。 如果您需要計算人口統計資料,請使用 計算基本統計資料 模組中的選項,此模組可以計算樣本或人口統計資料。
資料行名稱 | 描述 |
---|---|
功能 | 資料行名稱 |
Count | 所有資料列的計數 |
唯一值計數 | 資料行中唯一值的數目 |
遺漏值計數 | 資料行中唯一值的數目 |
Min | 資料行中的最小值 |
Max | 資料行中的最大值 |
平均數 | 所有資料行值的平均值 |
標準差 | 資料行值的平均偏差 |
第 1 四分位數 | 第一個四分位數的值 |
Median | 中位數資料行值 |
第 3 四分位數 | 第三個四分位數的值 |
模式 | 資料行值的眾數 |
範圍 | 整數,代表最大值與最小值之間的值數目 |
樣本變異數 | 資料行的變異數;請參閱附註 |
樣本標準差 | 資料行的標準差;請參閱附註 |
樣本偏態 | 資料行的偏態;請參閱附註 |
樣本峰態 | 資料行的峰態;請參閱附註 |
P0.5 | 0.5% 百分位數 |
P1 | 1 百分位數 |
P5 | 5 百分位數 |
P95 | 95 百分位數 |
P99.5 | 99.5 百分位數 |
提示
將統計資料包表輸出為表格式資料集,讓您可以使用 BI 報表工具中的資料,或使用這些值做為實驗中另一項作業的輸入。
範例
如需如何在實驗中使用 摘要資料 模組的範例,請參閱 Azure AI 資源庫:
從 uci 下載資料集:使用 uci 機器學習存放庫中的 URL 讀取 CSV 格式的資料集,並產生一些有關資料集的基本統計資料。
資料集處理和分析:將資料集載入工作區、變更資料行名稱,以及加入中繼資料。
學生效能預測:從 Azure Blob 儲存體讀取以 TSV 格式儲存的資料。
技術說明
若為數值和布林值資料行,您可以輸出平均值、中間值、模式和標準差。
針對非數值資料行,只會計算計數、唯一值計數和遺漏值計數。 至於其他統計資料,則傳回 null 值。
系統會使用以下值處理包含布林值的資料行:
計算 Min 時,套用邏輯 AND。
在計算 Max時,套用邏輯 OR
計算「範圍」時,模組會先檢查資料行中的唯一值數目是否等於 2。
在計算需要浮點計算的任何統計資料,True 值視為 1.0,False 值視為 0.0。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 輸入資料集 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
結果資料集 | 資料表 | 包含描述性統計資料的輸入資料集的設定檔 |
例外狀況
例外狀況 | 描述 |
---|---|
錯誤 0003 | 如果一或多個輸入是 Null 或空白,就會發生例外狀況。 |
錯誤 0020 | 如果傳遞給模組的某些資料集的資料行數目太少,就會發生例外狀況。 |
錯誤 0021 | 如果傳遞給模組的某些資料集的資料列數目太少,就會發生例外狀況。 |
如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼。
如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼。