SMOTE

發行項
09/01/2024

本文說明如何使用 Azure 機器學習設計工具中的 SMOTE 元件，在用於機器學習的數據集中增加未代表的案例數目。 SMOTE 是增加罕見案例數量比單純複製現有案例更好的方法。

您可以將 SMOTE 元件連線到不平衡的數據集。數據集可能不平衡的原因有很多。例如，您以為目標的類別在母體中可能很少見，或數據可能難以收集。一般而言，當您想要分析的類別代表不足時，您會使用 SMOTE。

元件會傳回包含原始範例的數據集。它也會根據您指定的百分比，傳回一些綜合少數樣本。

深入瞭解 SMOTE

綜合少數過度取樣技術（SMOTE）是一種統計技術，可讓您以平衡的方式增加數據集中的案例數目。元件的運作方式是從您提供做為輸入的現有少數案例產生新的實例。 SMOTE 的這個實作不會變更多數案例的數目。

新的實例不只是現有少數案例的複本。相反地，演算法會針對每個目標類別及其最接近的鄰居，取得特徵空間的範例。然後，此演算法會產生新的範例，將目標案例的功能與其鄰近的功能結合在一起。此方法會增加每個類別可用的功能，並讓範例更一般。

SMOTE 會將整個數據集視為輸入，但它只會增加少數案例的百分比。例如，假設您有一個不平衡的數據集，其中只有 1% 的案例具有目標值 A（少數類別），而 99% 的案例具有 B 值。若要將少數案例的百分比提高到前一個百分比的兩倍，您會在元件的屬性中輸入 200 個 SMOTE 百分比 。

範例

建議您嘗試搭配小型數據集使用 SMOTE，以查看其運作方式。下列範例使用 Azure 機器學習設計工具中提供的獻血數據集。

如果您將數據集新增至管線，並在數據集的輸出上選取 [可視化 ]，您可以看到數據集中 748 個數據列或案例中，570 個案例（76%）屬於類別 0，而 178 個案例（24%）是類別 1。雖然這個結果並不嚴重不平衡，但類別 1 代表獻血的人，因此這些數據列包含 您想要建立模型的功能空間 。

若要增加案例數目，您可以使用 100 的 倍數來設定 SMOTE 百分比的值，如下所示：

	類別 0	類別1	總計
原始資料集（相當於 SMOTE 百分比 = 0）	570 76%	178 24%	748
SMOTE 百分比 = 100	570 62%	356 38%	926
SMOTE 百分比 = 200	570 52%	534 48%	1,104
SMOTE 百分比 = 300	570 44%	712 56%	1,282

警告

使用 SMOTE 增加案例數目並不保證會產生更精確的模型。嘗試使用不同百分比、不同的功能集和不同數目的近鄰使用管線，以查看新增案例如何影響您的模型。

如何設定 SMOTE

將 SMOTE 元件新增至管線。您可以在 [操作] 類別的 [資料轉換] 元件下找到元件。
連接您想要提升的數據集。如果您想要指定建置新案例的功能空間，只要使用特定數據行或排除某些數據行，請使用 [選取數據集中的數據行] 元件。接著，您可以使用 SMOTE 之前，先隔離您想要使用的資料行。

否則，透過 SMOTE 建立新案例是以您提供做為輸入的所有資料行為基礎。特徵數據列中至少有一個數據行是數值。
確定已選取包含標籤或目標類別的數據行。 SMOTE 只接受二進位標籤。
SMOTE 元件會自動識別標籤資料列中的少數類別，然後取得少數類別的所有範例。所有數據行都不能有 NaN 值。
在 [SMOTE 百分比] 選項中，輸入整數，指出輸出數據集中少數案例的目標百分比。例如：
- 您輸入 0。 SMOTE 元件會傳回您提供做為輸入的完全相同數據集。它沒有增加新的少數案件。在此數據集中，類別比例尚未變更。
- 您輸入 100。 SMOTE 元件會產生新的少數案例。它會新增原始數據集中相同數目的少數案例。由於 SMOTE 不會增加多數案例的數目，因此每個類別的案例比例已變更。
- 您輸入 200。相較於原始數據集，元件會將少數案例的百分比加倍。這不會導致以前有兩倍的少數案件。相反地，數據集的大小會以讓多數案例的數目維持不變的方式增加。少數案例的數目會增加，直到符合所需的百分比值為止。
注意

僅針對 SMOTE 百分比使用 100 的倍數。
使用 [近鄰數目] 選項來判斷 SMOTE 演算法在建置新案例時所使用的特徵空間大小。最接近的鄰居是類似目標案例的數據列（案例）。任何兩個案例之間的距離是結合所有特徵的加權向量來測量。
- 藉由增加最接近的鄰居數目，您可以從更多案例取得功能。
- 藉由將最接近的鄰近數目保持在低位，您可以使用與原始範例中更類似的功能。
如果您想要確保相同管線執行的結果與相同的數據，請在 [ 隨機種子 ] 方塊中輸入值。否則，元件會在部署管線時，根據處理器時鐘值產生隨機種子。隨機種子的產生可能會導致執行的結果略有不同。
提交管線。

元件的輸出是包含原始數據列的數據集，加上少數案例的新增數據列數目。

技術注意事項

當您發佈使用 SMOTE 元件的模型時，請先從預測管線中移除 SMOTE，再將其發佈為 Web 服務。原因是 SMOTE 是為了在定型期間改善模型，而不是用於評分。如果已發佈的預測管線包含 SMOTE 元件，您可能會收到錯誤。
如果您清除遺漏值，或套用其他轉換來修正數據，套用SMOTE之前，您通常會取得更好的結果。
一些研究人員已經調查 SMOTE 是否對高維度或疏鬆數據有效，例如文字分類或基因組數據集中使用的數據。本文對在這類情況下套用 SMOTE 的效果和理論有效性有很好的總結：布拉格斯和盧薩：SMOTE 用於高維度類別不平衡的數據。
如果您的資料集中 SMOTE 無效，您可能會考慮的其他方法包括：
- 過度取樣少數案例或取樣多數案例的方法。
- 使用叢集、套用或調適型提升，協助學習者直接使用的合奏技術。

下一步

請參閱 Azure 機器學習可用的元件集。

共用方式為

SMOTE

深入瞭解 SMOTE

範例

如何設定 SMOTE

技術注意事項

下一步

意見反應

其他資源