共用方式為


評估機率函數

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

使指定的機率分配函數符合資料集

類別: 統計函數

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning設計工具提供類似的拖放模組。

模組概觀

本文說明如何使用 機器學習 Studio 中的評估機率函式模組, (傳統) ,來計算描述資料行分佈的統計量值,例如 (點陣圖、Pareto 或 Poisson 分佈。

若要使用此模型,請連接包含至少一個數值資料行的資料集,然後選擇要測試的機率分佈。 模組會傳回包含指定機率函式值的資料表。

您可以計算所選機率分佈的任何這些值:

  • cdf) 累積分配 式 (
  • inverseCdf (inverseCdf)
  • pdf) 的機率密度函式 (

為什麼機率分佈很有用?

當您根據機率分佈評估資料時,您會針對具有已知屬性的一組值對應資料行值。 藉由瞭解您的資料是否對應到這些已知散發的其中一個,您可能會推斷資料的其他屬性。 一般而言,當您可以識別最適合資料的分佈時,可以從模型取得更好的預測。

要使用哪種機率分佈函數的問題取決於要測量的資料及變數。 例如,某些分佈是設計來描述離散值的機率;其他專案僅供連續數值變數使用。 對於某些散發,您也必須事先知道預期的平均數、自由度等等。 如需詳細資訊,請參閱 支援的機率分佈

如何設定評估機率函式

  • 所有選項都會根據您想要計算的機率分佈類型而變更。 如果您變更機率分配方法,您可能已進行的其他選取專案會重設。

    因此,請務必先選擇 [散發 ] 選項!

  • 做為輸入的資料集應該包含數值資料。 會忽略其他類型的資料。

  • 針對每個分析,您可以套用單一機率分配方法。 若要計算不同的機率分佈,請為每個您想要測試的分佈新增個別的模組實例。

  1. 評估機率函式 模組新增至實驗。 您可以在 機器學習 Studio (傳統) 的[統計函數] 類別中找到此課程模組。

  2. 連線包含至少一個數位資料行的資料集。

  3. 使用 [ 分佈 ] 選項來選取您想要計算的機率分佈種類。 如需選項清單及其必要引數,請參閱 支援的機率分佈

  4. 設定分佈所需的任何參數。

  5. 選擇三個統計資料的其中一個:累積分配函數 (cdf) 、反向累計分配函數 (InverseCdf) pdf) 的 Probability 密度 (函數。

    如需定義,請參閱技術注意事項一節。

  6. 使用資料行選取器來選擇用來計算所選機率分佈的資料行。

    • 您選取的所有資料行都必須具有數值資料類型。

    • 資料行中的資料範圍也必須有效 (假設有選取的機率函數)。 否則,可能會發生錯誤或 NaN 結果。

    • 在疏鬆資料行中,將不會處理任何對應至背景零的值。

  7. 使用 [結果模式] 選項來指定如何輸出結果。 您可以將資料行值取代為機率分佈值,將新值附加至資料集,或者僅傳回機率分佈值。

  8. 執行實驗,或以滑鼠右鍵按一下 [評估機率函式 ] 模組,然後按一下 [ 執行] 選取

結果

下表包含來自樹系Fires範例資料集的單一溫度資料行上,使用Append選項的結果範例。

temp StandardNormal.Cdf (temp) StandardNormal.Pdf (暫存) FFisher.cdf (temp FFisher.cdf (temp
8.2 1 1 0.984774 0.004349
18 1 1 0.997896 0.000311
14.6 1 1 0.996352 0.000648
8.3 1 1 0.985201 0.004187
11.4 1 1 0.993147 0.001502

產生的資料行標題包含使用的機率分佈。

如果您不確定哪些機率分佈可能符合您的資料,您可以為任何數值資料行建立累積分佈和機率密度的快速圖表。

  1. 以滑鼠右鍵按一下資料集或模組輸出,然後選取 [ 視覺化]。
  2. 選取感興趣的資料行,然後在 [直 方圖] 窗格中,選取 累積分佈機率密度
  3. 分佈的圖表如下,會在代表資料的長條圖上加加。

aml_histogram_cdf_pdf_chart

支援的機率分佈

評估機率函式模組支援下列分佈:

白努利

當可能只有兩個值時,此散發是二進位值的分佈:換句話說,它只會建立預期分佈的模型。

若要計算,請選取 [Bernoulli],然後設定下列選項:

  • 成功的機率
    參數 p 指定產生 1 的機率。 輸入介於 0.0 與 1.0 之間的數字 (float),以指定成功的機率。 預設值為 0.5。

Beta

Beta 分佈是連續的單一分佈。

若要計算,請選取 [Beta],然後設定下列選項:

  • 圖形
    輸入值,以變更分佈的圖形。

    圖形參數是未定義其位置或範圍的任何機率分佈參數。 因此,當您輸入圖形的值時,參數會變更分佈的圖形,而不是移動、拉伸或收縮圖形。

    此值必須是數字 (double)。 預設值為 1.0。

  • 調整
    輸入要用於調整分佈的數字。

    藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    預設值為 1.0。 值必須是正數。

  • 上限
    輸入數字 (double),以代表分佈上限。 預設值為 1.0。

  • 下限
    輸入數字 (double),以代表分佈下限。 預設值為 0.0。

二項式

二項分配是離散的單變數分佈。 二項式分佈用來建立樣本中成功次數的模型。 取樣時會使用置回。 在不置回取樣中,使用超幾何分佈

若要計算,請選取 [二項],然後設定下列選項:

  • 成功的機率
    輸入介於 0.0 與 1.0 之間的數字 (float),以指出成功的機率。 預設值為 0.5。

  • 試驗次數
    指定試驗的次數。

    integer使用 最小值為 1 的 。 預設值為 3。

柯西

柯西分佈是對稱的連續機率分佈。

若要計算,請選取 [Cauchy],然後設定下列選項:

  • 位置
    輸入代表0 個專案位置的數位 (double) 。

    透過指定 [位置] 參數的值,您可以將機率分佈向上或向下調整一個數值小數位數。

    預設值為 0.0。

卡方

chi-square 分佈是 k 獨立、標準、標準、隨機變數平方的總和。

若要計算,請選取 [ChiSquare],然後設定下列選項:

  • 自由度數 輸入數位 (double) 以指定自由度。 預設值為 1.0。

ChiSquareRightTailed

此選項提供右尾的 chi-squared 分佈。

若要計算,請選取 [ChiSquareRightTailed],然後設定下列選項:

  • 自由度的數目
    輸入數字 (double),以指定自由度。 預設值為 1.0。

指數

指數分佈是透過由一個非負數參數所參數化之實數進行的分佈。

若要計算,請選取 [指數],然後設定下列選項:

  • Lambda
    輸入數字 (double),以作為 Lambda 參數。 預設值為 1.0。

FFisher

產生樣本的雪地統計資料機率,也稱為「雪地 F 分佈」。 這是雙邊分佈。

若要計算,請選取 FFisher,然後設定下列選項:

  • 分子自由度
    輸入數字 (double),以指定在分子中使用的自由度。 預設值為 3.0。

  • 分母自由度
    輸入數字 (double),以指定在分母中使用的自由度。 預設值為 6.0。

FFisherRightTailed

建立右尾的雪地分佈。 費雪分佈也稱為費雪 F 分佈、Snedecor 分佈或費雪 Snedecor 分佈。 這種特定形式的分佈是右尾分佈。

若要計算,請選取 FFisherRightTailed,然後設定下列選項:

  • 分子自由度
    輸入數字 (double),以指定在分子中使用的自由度。 預設值為 3.0。

  • 分母自由度
    輸入數字 (double),以指定在分母中使用的自由度。 預設值為 6.0。

色差補正

Gamma 分佈是具有兩個參數的一系列連續機率分佈。 例如,卡方是一種特殊的 Gamma 分佈。

若要計算,請選取 [Gamma],然後設定下列選項:

  • 調整
    輸入要用於調整分佈的值。

    藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    預設值為 1.0。 值必須是正數。

  • 位置
    輸入代表0 個專案位置的數位 (double) 。

    透過指定 [位置] 參數的值,您可以將機率分佈向上或向下調整一個數值小數位數。

    預設值為 0.0。

GeneralizedExtremeValues

建立開發以處理極端值的分佈。 廣義極值 (GEV) 分佈實際上是一組連續的機率分佈,其結合了耿貝爾、弗雷歇和韋伯分佈 (也稱為類型 I、II 和 III 極值分佈)。

如需極端值理論的詳細資訊,請參閱 Wikipedia: Fisher-Tippet-Gnedenko 定理中的這篇文章。

若要計算,請選取 [一般化][ExtremeValues],然後設定下列選項:

  • 圖形
    輸入值,以變更分佈的圖形。

    圖形參數是未定義其位置或範圍的任何機率分佈參數。 因此,當您輸入圖形的值時,參數會變更分佈的圖形,而不是移動、拉伸或收縮圖形。

    此值必須是數字 (double)。 預設值為 1.0。

  • 調整
    輸入要用於調整分佈的值。

    藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    預設值為 1.0。 值必須是正數。

  • 位置
    輸入代表0 個元素位置的數位 (double) 。

    透過輸入 [位置] 參數的值,您可以將機率分佈向上或向下調整一個數值小數位數。

    預設值為 0.0。

幾何

幾何分佈是透過一個正實數參數化之正整數的分佈。

若要計算,請選取 [幾何],然後設定下列選項:

  • 成功的機率
    輸入介於 0.0 與 1.0 之間的數字 (float),以指出成功的機率。 預設值為 0.5。

注意

幾何分佈的這個實作不會產生零。

GumbelMax

耿貝爾分佈是數個極值分佈中的一個。 [GumbelMax] 選項會實作最大極值類型 1 分佈。

若要計算,請選取 [一文][一節],然後設定下列選項:

  • 調整
    輸入要用於調整分佈的值。

    藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    預設值為 1.0。 值必須是正數。

  • 位置
    輸入代表0 個元素位置的數位 (double) 。

    透過輸入 [位置] 參數的值,您可以將機率分佈向上或向下調整一個數值小數位數。

    預設值為 0.0。

GumbelMin

耿貝爾分佈是數個極值分佈中的一個。 耿貝爾分佈也稱為最小極值 (SEV) 分佈或最小極值 (類型 I) 分佈。 [!提示]BelMin選項會實作最小極端數值型別 1 分佈。

若要計算,請選取 [一律使用一次],然後必須設定下列選項:

  • 調整
    輸入要用於調整分佈的值。

    藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    預設值為 1.0。 值必須是正數。

  • 位置
    輸入代表0 個元素位置的數位 (double) 。

    透過輸入 [位置] 參數的值,您可以將機率分佈向上或向下調整一個數值小數位數。

    預設值為 0.0。

超幾何

超對稱分佈是一種離散機率分佈,描述從有限母體中擷取而未取代的 n 序列成功次數,就像二項分配描述使用取代繪製的成功次數一樣。

若要計算,請選取 [超對稱],然後設定下列選項:

  • 範例數
    輸入整數,指出要使用的樣本數目。 預設值為 9。

  • 成功的次數
    輸入整數,以定義成功的值。 預設值為 24。

  • 母體大小
    指定在估計超幾何分佈時所要使用的母體大小。

拉普拉斯

Laplace 分佈是實數的分佈,以平均數和刻度參數來參數化。

若要計算,請選取 [Laplace 分佈],然後設定下列選項:

  • 調整
    輸入要用於調整分佈的值。

    藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    預設值為 1.0。 值必須是正數。

  • 位置
    輸入代表0 個元素位置的數位 (double) 。

    透過輸入 [位置] 參數的值,您可以將機率分佈向上或向下調整一個數值小數位數。

    預設值為 0.0。

Logistic

羅吉斯分佈類似於常態分佈,但它沒有分配的左側限制。 羅吉斯分佈使用於羅吉斯迴歸和類神經網路模型中,可供對生命科學資料進行建模。

若要計算,請選取 [羅吉斯],然後設定下列選項:

  • 調整
    輸入要用於調整分佈的值。

    藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    預設值為 1.0。 值必須是正數。

  • 平均數
    輸入數字 (double),以指出分佈的估計平均值。 預設值為 0.0。

對數常態

對數常態分佈是連續的單一分佈。

若要計算,請選取 [Lognormal],然後設定下列選項:

  • 平均數
    輸入數位 (double) ,指出分佈的估計平均值。 預設值為 0.0。

  • 標準差
    輸入正數 (double),以指出分佈的估計標準差。 預設值為 1.0。

NegativeBinomial

負二項式分佈是具有兩個參數 (rp) 的自然數分佈。 在整數的特殊案例 r 中,當前端的 機率為 p 時,您可以將分佈解譯為第 r 個前端之前的尾數。

若要計算,請選取 [NegativeBinomial],然後設定下列選項:

  • 成功的機率
    輸入介於 0.0 與 1.0 之間的數字 (float),以指出成功的機率。 預設值為 0.5。

  • 成功的次數
    輸入整數,以指定成功的值。 預設值為 24。

正常

常態分佈也稱為 Gaussian 分佈。

若要計算,請選取 [一般],然後設定下列選項:

  • 平均數
    輸入數位 (double) ,指出分佈的估計平均值。 預設值為 0.0。

  • 標準差
    輸入正數 (double),以指出分佈的估計標準差。 預設值為 1.0。

帕累托

帕累托分佈是一種冪次定律機率分佈,與社會、科學、地球物理、保險和許多其他類型的可觀察現象吻合。

若要計算,請選取 [Pareto],然後設定下列選項:

  • 圖形
    輸入值 (選擇性),以變更分佈的圖形。

    圖形參數是未定義其位置或範圍的任何機率分佈參數。 因此,當您輸入圖形的值時,參數會變更分佈的圖形,而不是移動、拉伸或收縮圖形。

    此值必須是數字 (double)。 預設值為 1.0。

  • 調整
    輸入值 (選擇性) 來變更分佈的規模。 藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    此值必須是數字 (double)。 預設值為 1.0。

波氏

在這個實作中,Knuth 的方法用來產生波氏分佈隨機變數。 如需 Poisson 分佈的詳細資訊,請參閱 Poisson 回歸

若要計算,請選取 [Poisson],然後設定下列選項:

  • 平均數
    輸入數位 (double) ,指出分佈的估計平均值。 預設值為 0.0。

瑞利

瑞利分佈是連續的機率分佈。 如果二維風速向量的構成要素是互不相關的,且以相等的變異數呈現常態分佈,則風速會呈現瑞利分佈。這是瑞利分佈的典型發生方式。

若要計算,請選取 [Ray],然後設定下列選項:

  • 下限
    輸入數字 (double),以代表分佈下限。 預設值為 0.0。

StandardNormal

此選項提供標準常態分配,沒有其他參數。

若要計算,請選取 [StandardNormal],然後選取資料行。

TStudent

此選項會實作單變數 Student 的 t 分佈。

若要計算,請選取 [TStudent],然後設定下列選項:

  • 自由度的數目
    輸入數字 (double),以指定自由度。 預設值為 1.0。

TStudentRightTailed

使用一個右尾實作單變量 Student t 分佈。

若要計算,請選取 [TStudentRightTailed],然後設定下列選項:

  • 自由度的數目
    輸入數字 (double),以指定自由度。 預設值為 1.0。

TStudentTwoTailed

實作雙尾 Student T 分佈。

若要計算,請選取 [TStudentTwoTailed],然後設定下列選項:

  • 自由度的數目
    輸入數字 (double),以指定自由度。 預設值為 1.0。

Uniform

統一分佈也稱為矩形分佈。

若要計算,請選取 [統一],然後設定下列選項:

  • 下限
    輸入數字 (double),以代表分佈下限。 預設值為 0.0。

  • 上限
    輸入數字 (double),以代表分佈上限。 預設值為 1.0。

韋伯

韋伯分佈廣泛使用於可靠性工程。 您可以使用其 Shape 參數來建立許多其他分佈的模型。

若要計算,請選取 [Weibull],然後設定下列選項:

  • 圖形
    輸入值 (選擇性),以變更分佈的圖形。

    圖形參數是未定義其位置或範圍的任何機率分佈參數。 因此,當您輸入圖形的值時,參數會變更分佈的圖形,而不是移動、拉伸或收縮圖形。

    此值必須是數字 (double)。 預設值為 1.0。

  • 調整
    輸入值 (選擇性) 來變更分佈的規模。 藉由將調整值套用至分佈,您可以將其收縮或拉伸。

    此值必須是數字 (double)。 預設值為 1.0。

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

實作詳細資料

這個模組支援開放原始碼 MATH.NET 數值程式庫中提供的所有分佈。 如需詳細資訊,請參閱 Math.Net.Numerics.Distribution 程式庫的檔。

右尾和雙尾散發會顯示為不同的散發,而不是基底散發的參數化版本。 目前的作法是保留與 Excel 的相容性。

定義

此課程模組支援計算指定分佈的任何值:

  • cdf累加分配函數

    傳回復合事件的機率,當隨機變數採用小於某些特定值 x 的值時,定義為 ocurrence 的總和。

    換句話說,它會回答「樣本小於或等於此值的常見程度?」

    此函式可以搭配連續和離散數值變數使用。

  • InverseCdf反向累加分配函數

    傳回與特定累計機率值相關聯的值, (cdf) 。

    換句話說,它會回答問題:「cdf 函式傳回累加機率 y 的 x 值為何?」

  • pdf機率密度函數

    描述隨機變數為特定值的相對可能性。

    換句話說,它會回答「範例在確切此值上的常見程度?」

預期的輸入

名稱 類型 描述
資料集 資料表 輸入資料集

模組參數

名稱 範圍 類型 預設 描述
散發 任意 ProbabilityDistribution StandardNormal 選取要產生的機率分佈類型。
方法 任意 ProbabilityDistributionMethod Cdf 選取在計算所選取的機率分佈時要使用的方法。

選項是累積分佈函數 (cdf)、反向累積分佈函數 (InverseCdf) 及機率密度函數或質量函數 (pdf)。
負二項式分佈方法 任意 ProbabilityDistributionMethodForNegativeBinomial Cdf 如果您選取負二項式分佈,請指定用於評估分佈的方法。
成功的機率 [0.0;1.0] Float 0.5 輸入要用作成功機率的值。
圖形 任意 Float 1.0 輸入值,以修改分佈的圖形。
調整 >=0.0 Float 1.0 輸入值,以變更分佈的範圍,擴充或收縮其大小。
試驗次數 >=1 整數 3 指定試驗的次數。
下限 任意 Float 0.0 輸入要用作分佈下限的數字
上限 任意 Float 1.0 輸入要用作分佈上限的數字
Location 任意 Float 0.0 輸入分佈中零項目的位置。
自由度的數目 任意 Float 1.0 指定自由度的數目。
分子自由度 任意 Float 3.0 指定分子中自由度的數目。
分母自由度 任意 Float 6.0 指定分母中自由度的數目。
Lambda >=0.0 Float 1.0 指定 Lambda 參數的值。
範例數 任意 整數 9 指定樣本的數目。
成功的次數 任意 整數 24 輸入要用作成功次數的值。
母體大小 任意 整數 52 指定母體大小。
平均數 任意 Float 0.0 輸入估計的平均值。
標準差 >=0.0 Float 1.0 輸入估計的標準差。
資料行集 任意 ColumnSelection 選擇要計算機率分佈的資料行。
結果模式 任意 OutputTo ResultOnly 指定結果在輸出資料集中如何儲存。 選項包括附加新資料行、取代現有資料行或僅輸出結果。

輸出

名稱 類型 描述
結果資料集 資料表 輸出資料集

例外狀況

如需錯誤訊息的完整清單,請參閱 模組錯誤碼

例外狀況 描述
錯誤 0017 如果一或多個指定的資料行具有目前的模組不支援的型別,就會發生例外狀況。

如需 Studio (傳統) 模組特有的錯誤清單,請參閱錯誤碼機器學習

如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼

另請參閱

統計函數
A-Z 模組清單