計算基本統計資料
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
針對選取的資料集資料行計算指定摘要統計資料
Category: 統計函數
模組概觀
本文描述如何使用機器學習 Studio (傳統) 中的 [計算基本統計資料]模組,為資料集產生摘要報告,其中列出索引鍵統計資料,例如平均值、標準差,以及每個所選資料行的值範圍。
此報表可用來分析資料的集中趨勢、離散和形狀。
如何設定計算基本統計資料
連線資料集,其中包含您想要分析的資料行。
按一下 [ 方法 ] 下拉式清單,然後選擇您想要為每個資料行計算的數值型別。
如需可用統計資料的完整清單以及它們的意義,請參閱 支援的統計資料 一節。
根據預設,您在 [ 方法 ] 下拉式清單中選取的值,將會針對資料集內具有數值資料類型的所有資料行來計算。 如果有任何資料行有防止計算值的值,將會引發錯誤,而且不會建立報表。
若要避免這個錯誤,請使用資料行選取器來挑選您要報告的數值資料行。 您選擇的所有資料行都必須是數值。
執行實驗。
結果
產生的報表包含每個資料行的名稱,以及已計算的統計資料。 例如,下表顯示針對 mpg 資料行產生的統計資料。
DeviationSquared (mpg) | 最大 (mpg) | 最小 (mpg) |
---|---|---|
9674.312 | 25.21951 | 13 |
支援的統計資料
此模組支援下列標準描述性統計資料。
平方差
計算資料行值的 平方偏差 。 也稱為平方的總和。
平方差是值與平均值分散程度的量值。
幾何平均數
計算資料行值的 幾何平均值 。
幾何平均值可以用來測量一組數位的集中趨勢。 相較于算術平均數,較少的極端值不會受到影響。 它也可以用來比較不同刻度的度量,因為它會有效地標準化所比較的數位比例。 幾何表示有時候會用來預估複合年度成長率。
Excel 中的對等函數為 GEOMEAN。
調和平均數
計算資料行值的 調和平均數 。
若要計算調和平均數,所有值都會轉換成其 reciprocals,然後會採用這些值的平均值。 調和平均值是該平均值的倒數。 如果資料行的值是正數,則較大的數位會加權小於較小的數位。
調和平均值永遠小於幾何平均數,一律小於算術平均值。 調和平均值適用于平均表示速率的變數,例如隨時間變化的速度 (距離) 或每季的銷售額。
Excel 中的對等函數為 HARMEAN。
內四分位距離
計算資料行值的第一個和最後一個分量的interquartile 差異。 也稱為 四位數範圍。 當四個位數介於兩個數字之間時,四分四個值就是剪下兩側兩個值的平均值。
四分四值會將值的資料行分割成具有相等值數目的四個群組。 因此,一季的值會小於或等於25個百分位數。 值的三季小於或等於75個百分位數。 藉由查看四個四個範圍,您就可以瞭解如何將資料值分散到很大的範圍。
第 K 個中心動差
計算資料行值的 第 K 個中心時刻 。
計算第 K 個中心時,您也必須指定 順序,亦即 k 的值。 K 值的範圍可以從0到任何允許的整數值,但較高的順序值通常沒有意義。
一般來說,在描述性統計資料中,時間是描述一組點形狀的量值。 中央時間與平均值相關,通常是因為它們提供分佈形狀的更佳資訊。 2的順序通常代表變異數;5的順序用於峰。 第一個訂單時間是平均值。 因此,所有時刻的集合都會唯一描述資料行中的值分佈。
最大值
尋找資料行中的 最大值 。
平均數
計算資料行值的 算術平均值 。
Excel 中的對等函數是 AVERAGE。
標準差
計算資料行值的 平均絕對偏差 。
也就是說,計算資料行的平均值,以及計算資料行中每個值的偏差。 個別偏差值的絕對值平均值是平均偏差。
此統計資料會告訴您如何從數位資料行的平均值中散佈。
Median
傳回資料行值的中 位數 。
中間值是數位資料行中間的數位。 如果資料行中有偶數數目的數位,中間值就是兩個數字的平均值。
中間值和 平均值 和 模式是測量中央趨勢的三個統計資料之一。 如果值對稱平均,則這三個數字會是相同的。 不過,中位數比 mean 更健全。
中位差
計算資料行的中 位數偏差 。
也就是說,會計算資料行的中位數,並針對資料行中的每個值計算出偏差。 取得個別偏差值之絕對值的中位數值。
中間值絕對偏差也稱為 MAD,可用來描述數位範例的變化性。 MAD 會告訴您如何從數位資料行的平均值來散佈。
最小值
傳回資料行值的 最小值 。
[模式]
尋找資料行的所有 模式 。
此模式是最常出現在資料行中的值。 如果有數個值出現相同的次數,資料行可以有多個模式。
作為趨量的量值,模式比平均值更健全,而且也可以與名義資料搭配使用。
母體標準差
計算資料行值的 人口標準差 。
此統計資料會假設資料行值代表整個人口。 如果您的資料只是人口的範例,您必須使用 範例標準差來計算標準差。 不過,在大型資料集中,這兩個統計資料會傳回大約相等的值。
標準差會計算為數據行變異數的平方根。 此統計資料會在資料行中捕捉變化量。
母體擴展變異數
計算資料行值的 人口 變異數。
變異數會測量一組數位分佈的程度。如果變異數為零,則所有數位都相同。
此統計資料會假設值的資料行代表整個擴展。 如果您的資料只包含值的範例,您應該使用 樣本變異數來計算變異數。
對等的 Excel 函數是 VAR.P
。
產品
計算資料行元素的 乘積 。
若要取得產品,您必須在資料行中有多個數位。 結果本身並不是有用的描述性統計資料,但函數適用于各種其他計算。
範圍
計算資料行值的 範圍 。 範圍定義為最大值減去最小值
樣本峰態
計算資料行值的 樣本峰 。
結果會描述值分佈的形狀,也就是尖峰或平面分佈的值與一般分佈的比較方式。
一般分佈的峰值為0。
高尖峰值表示機率的大括弧是圍繞尖峰或分佈的結尾。
負峰值表示相對的分佈。
樣本偏態
計算資料行值的不 對稱度樣本 。
扭曲描述大量值是否位於中央、向左移位或向右移動。 兩個分佈可能具有相同的平均值和標準差,但成形的方式非常不同。 您可以使用不對稱和峰值來描繪圖形的特性。
負誤差值表示分佈會扭曲至左方。
0表示正常分佈。
正面偏斜值表示分佈會扭曲至右邊。
樣本標準差
計算資料行值的 樣本標準差 。
範例的標準差會測量資料行中的值如何從平均值中散佈。 它代表集合中的資料值與平均值之間的平均距離。
此統計資料會假設資料行值代表人口的樣本。 如果您的資料代表整個人口,您必須使用 人口標準差來計算標準差。
對等的 Excel 函數是 ST。開發人員。
樣本變異數
計算資料行值的 樣本 變異數。
這個方法會假設資料行值代表人口的樣本。 如果資料行包含整個人口,您應該使用 人口標準變異數。
對等的 Excel 函數是 VAR。
Sum
計算資料行值的 總和 。
範例
Azure AI 資源庫中的下列實驗會示範如何建立摘要報表,其中包含整個資料集的描述性統計資料。 摘要報表僅包含一般統計資料;不過,您可以將它儲存為資料集,然後使用 [ 計算基本統計資料]中的選項來新增更詳細的統計資料。
從 UCI 下載資料集:摘要 資料 模組用來產生資料集中所有資料行的摘要報表。
技術說明
本節包含實作詳細資料、提示和常見問題集的解答。
提示
使用 計算基本統計資料 模組時,必須滿足下列條件:
- 您必須有足夠的資料點數目 (資料列) 計算選取的統計資料。 例如,若要計算 範例標準差 ,至少需要兩個資料點;否則,結果為 NaN。
- 輸入資料行必須是數值或布林值。
預設會選取所有數值資料行。 但是,如果有任何數值資料行標示為類別,您可能會收到下列錯誤:「錯誤0056:名稱 < 資料行名稱 > 的資料行不在允許的類別中」。若要更正錯誤,請新增 [ 編輯中繼資料 ] 模組的實例、選取具有問題的資料行,然後使用 [ 移除類別] 選項。
實作詳細資料
布林資料行的處理方式如下:
MIN 以邏輯 AND 來計算。
MAX 以邏輯 OR 來計算。
RANGE 會檢查資料行中的唯一值數目是否等於 2。
遺漏值會被忽略。
在需要浮點計算的統計資料中,True = 1.0 而 False = 0.0
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 輸入資料集 |
模組參數
名稱 | 範圍 | 類型 | 預設 | 描述 |
---|---|---|---|---|
方法 | List | 基本統計方法 | 選取要在計算中使用的統計方法。 請參閱如何使用區段來取得值清單。 | |
資料行集 | 任意 | ColumnSelection | NumericAll | 選取要計算統計資料的資料行 |
順序 | >=1 | 整數 | 3 | 指定「中央時間順序」的值, (只用于 kth 中部) |
輸出
名稱 | 類型 | 說明 |
---|---|---|
結果資料集 | 資料表 | 輸出資料集 |
例外狀況
例外狀況 | 描述 |
---|---|
錯誤 0017 | 如果一或多個指定的資料行具有目前的模組不支援的型別,就會發生例外狀況。 |
如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼。
如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼。