共用方式為


剪輯值

本文說明 Azure 機器學習 設計工具的元件。

使用 Clip Values 元件,以平均值、常數或其他替代值,識別並選擇性地取代高於或低於指定臨界值的數據值。

您可以將元件連接到具有您要裁剪之數字的數據集、選擇要使用的數據行,然後設定臨界值或值範圍,以及取代方法。 元件可以只輸出結果,或附加至原始數據集的已變更值。

如何設定剪輯值

開始之前,請先識別您想要裁剪的數據行,以及要使用的方法。 建議您先在小型數據子集上測試任何裁剪方法。

元件會將相同的準則和取代方法套用至 您在選取範圍中包含的所有數據 行。 因此,請務必排除您不想變更的數據行。

如果您需要將裁剪方法或不同的準則套用至某些數據行,則必須針對每組類似的數據行使用一個新的剪輯值實例

  1. 剪輯值 元件新增至管線,並將它連接到您想要修改的數據集。 您可以在 [調整和縮減] 類別的 [資料轉換] 下找到此元件。

  2. [資料行清單] 中,使用 [資料行選取器] 來選擇要 套用剪輯值 的數據行。

  3. 針對 [ 設定閾值],從下拉式清單中選擇下列其中一個選項。 這些選項會決定如何為可接受的值和必須裁剪的值設定上限和下限。

    • ClipPeaks:當您依尖峰裁剪值時,您只會指定上限。 大於該界限值的值會被取代。

    • ClipSubpeaks:當您依子標題裁剪值時,您只指定下限。 會取代小於該界限值的值。

    • ClipPeaksAndSubpeaks:當您依尖峰和子標題裁剪值時,可以同時指定上限和下限。 超出該範圍的值會被取代。 不符合界限值的值不會變更。

  4. 根據您在上一個步驟中的選取範圍,您可以設定下列臨界值:

    • 較低的閾值:只有在您選擇 ClipSubPeaks 時才顯示
    • 上限臨界值:只有在您選擇 ClipPeaks 時才顯示
    • 閾值:只有在您選擇 ClipPeaksAndSubPeaks 時才顯示

    針對每個臨界值類型,選擇 [常數] 或 [百分位數]。

  5. 如果您選取 [ 常數],請在文字框中輸入最大值或最小值。 例如,假設您知道 999 的值是當做佔位元值使用。 您可以針對上限閾值選擇 [常數 ],然後在 [常數值] 中 輸入 999 以達到上限閾值

  6. 如果您選擇 [百分位數],請將數據行值限製為百分位數範圍。

    例如,假設您想要只保留 10-80 百分位數範圍內的值,並取代所有其他值。 您可以選擇 Percentile,然後針對較低的閾值輸入百分位數值 10,併為上限閾值輸入百分位數值 80。

    如需如何使用百分位數範圍的一些範例,請參閱百分位數一節

  7. 定義替代值。

    與您指定的界限完全相符的數位會被視為在允許的值範圍內,因此不會被取代。 落在指定範圍以外的所有數字都會取代為替代值。

    • 替代尖峰值:定義值,以取代大於指定臨界值的所有數據行值。
    • 替代子標題的值:定義要用來取代小於指定臨界值的所有數據行值。
    • 如果您使用 ClipPeaksAndSubpeaks 選項,您可以針對上層和下層裁剪的值指定個別的取代值。

    支援下列取代值:

    • 臨界值:將裁剪的值取代為指定的臨界值。

    • Mean:以數據行值平均值取代裁剪的值。 平均值會在裁剪值之前計算。

    • 位數:以數據行值的中位數取代裁剪的值。 在裁剪值之前,會先計算中位數。

    • 遺漏。 將裁剪的值取代為遺漏的 (空白) 值。

  8. 新增指標數據行:如果您想要產生新的數據行,指出指定的裁剪作業是否套用至該數據列中的數據,請選取此選項。 當您測試一組新的裁剪和替代值時,此選項很有用。

  9. 覆寫旗標:指出您想要如何產生新的值。 根據預設, Clip Values 會建構新的數據行,並將尖峰值裁剪至所需的臨界值。 新的值會覆寫原始數據行。

    若要保留原始數據行,並新增含有裁剪值的新數據行,請取消選取此選項。

  10. 提交管線。

    以滑鼠右鍵按兩下 [剪輯值] 元件,然後選取 [可視化] 或選取元件,然後切換至右側面板中的 [輸出] 索引卷標,按兩下 [連接埠輸出] 中的直方圖圖示,以檢閱值,並確定裁剪作業符合您的預期。

使用百分位數裁剪的範例

若要瞭解百分位數裁剪的運作方式,請考慮具有10個數據列的數據集,其中每個值各有一個實例1-10。

  • 如果您使用百分位數作為上限臨界值,在第 90 個百分位數的值上,數據集中所有值的 90% 必須小於該值。

  • 如果您使用百分位數作為較低的臨界值,在第 10 個百分位數的值上,數據集中所有值的 10% 必須小於該值。

  1. 針對 [ 設定臨界值],選擇 ClipPeaksAndSubPeaks

  2. 針對 [ 上限閾值],選擇 [ 百分位數],然後針對 [百分位數] 輸入 90。

  3. 針對 [ 上層替代值],選擇 [ 遺漏值]。

  4. 針對 [ 較低的閾值],選擇 [ 百分位數],然後針對 [百分位數] 數位輸入 10。

  5. 針對 [較低的替代值],選擇 [ 遺漏值]。

  6. 取消選取 [覆寫旗標] 選項,然後選取 [新增指標數據行] 選項

現在,嘗試使用 60 作為上限百分位數臨界值和 30 作為較低的百分位數臨界值相同的管線,並使用臨界值作為取代值。 下表比較這兩個結果:

  1. 將 取代為遺漏;上限臨界值 = 90;較低的閾值 = 20

  2. 以臨界值取代 ;百分位數上限 = 60;較低的百分位數 = 40

原始數據 將取代為遺漏 以臨界值取代
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3、FALSE

4、FALSE

5、FALSE

6、FALSE

7、FALSE

8、FALSE

9、FALSE

TRUE
4、TRUE

4、TRUE

4、TRUE

4、TRUE

5、FALSE

6、FALSE

7,TRUE

7,TRUE

7,TRUE

7,TRUE

下一步

請參閱 Azure 機器學習 可用的元件集。