共用方式為


轉換為指標值

本文說明 Azure 機器學習 設計工具的元件。

使用 Azure 機器學習 設計工具中的 [轉換成指標值] 元件,將包含類別值的數據行轉換成一系列的二進位指標數據行。

[ 轉換成指標值 ] 作業可讓您將類別數據轉換成以二進位或多個值表示的指標值。 此程式是分類模型常用的其中一個數據前置處理步驟。

此元件也會輸出轉換的定義,用來轉換成指標值。 您可以使用套用 轉換元件,在具有相同架構的其他數據集上重複使用此轉換

如何設定轉換為指標值

  1. 尋找 [ 轉換成指標值 ],並將其拖曳至管線草稿。 您可以在 [資料轉換] 類別下找到此元件。

    注意

    您可以在 [轉換成索引器值] 元件之前使用 [編輯元數據] 元件,將目標數據行標示為類別。

  2. 將 [ 轉換為指標值 ] 元件連接到包含您要轉換之數據行的數據集。

  3. 選取 [編輯資料行 ] 以選擇一或多個類別數據行。

  4. 如果您想要只輸出新的布林資料列,請選取 [覆寫類別數據行] 選項。 根據預設,這個選項為關閉狀態。

    提示

    如果您選擇覆寫的選項,則不會實際刪除或修改源數據行。 相反地,新數據行會在輸出數據集中產生並呈現,而且源數據行仍可在工作區中使用。 如果您需要查看原始數據,您可以隨時使用 [加入 數據行] 元件,將源數據行新增回去。

  5. 提交管線。

結果

假設您有分數的數據行,指出伺服器是否有高、中或低失敗機率。

伺服器識別碼 失敗分數
10301
10302
10303

當您將 Convert 套用至指標值時,設計工具會將單一標籤資料行轉換成包含布林值的多個資料列:

伺服器識別碼 失敗分數 - 低 失敗分數 - 中 失敗分數 - 高
10301 1 0 0
10302 0 1 0
10303 0 0 1

轉換的運作方式如下:

  • 在描述風險的 [ 失敗分數 ] 數據行中,只有三個可能的值(高、中和低),而且沒有遺漏的值。 因此,只建立三個新的數據行。

  • 新的指標數據列會根據源數據行的數據列標題和值來命名,使用下列模式: <源數據行>- <資料值>

  • 只有一個指標數據行中有1個,而所有其他指標數據行中應該有0個,因為每部伺服器只能有一個風險評等。

您現在可以使用這三個指標數據行作為機器學習模型中的功能。

元件會傳回兩個輸出:

  • 結果數據集:具有已轉換指標值數據行的數據集。 未選取清除的數據行也會「通過」。
  • 指標值轉換:用於轉換成指標值的數據轉換,可儲存在工作區中,稍後再套用至新數據。

將儲存的指標值作業套用至新數據

如果您需要經常重複指標值作業,您可以將資料操作步驟儲存為 轉換 ,以使用相同的數據集重複使用。 如果您必須經常重新匯入,然後清除具有相同架構的數據,這會很有用。

  1. 將 [ 套用轉換 ] 元件新增至管線。

  2. 新增您想要清除的數據集,並將數據集聯機到右側輸入埠。

  3. 展開設計工具左側窗格中的 [資料轉換] 群組。 找出已儲存的轉換,並將其拖曳至管線。

  4. 將儲存的轉換連接到套用轉換左側輸入埠。

    當您套用已儲存的轉換時,無法選取要轉換的數據行。 這是因為轉換已定義並自動套用至原始作業中指定的數據類型。

  5. 提交管線。

技術注意事項

本節包含常見問題的實作詳細數據、秘訣和解答。

使用提示

  • 只有標示為類別的數據行可以轉換成指標數據行。 如果您看到下列錯誤,可能是您選取的其中一個資料行不是類別:

    錯誤 0056:名稱 <資料行名稱> 的數據行不在允許的類別中。

    根據預設,大部分的字串數據行會當做字串功能來處理,因此您必須使用 [編輯元數據] 明確地將它們標示為類別。

  • 您可以轉換成指標資料行的數據行數目沒有限制。 不過,因為每個值的數據行都可以產生多個指標數據行,因此您可能想要一次只轉換並檢閱幾個數據行。

  • 如果數據行包含遺漏值,則會針對遺漏的類別建立個別的指標數據行,且名稱如下: <源數據行> - 遺漏

  • 如果您轉換成指標值的數據行包含數位,它們必須標示為類別,就像任何其他特徵數據行一樣。 完成此動作之後,數位會被視為離散值。 例如,如果您的數值數據行具有從 25 到 30 的 MPG 值,則會為每個離散值建立新的指標數據行:

    Make 高速公路 mpg -25 公路 mpg -26 高速公路 mpg -27 高速公路 mpg -28 高速公路 mpg -29 高速公路 mpg -30
    Contoso Cars 0 0 0 0 0 1
  • 若要避免將太多維度新增至數據集。 建議您先檢查數據行中的值數目,並適當地量化數據。

下一步

請參閱 Azure 機器學習 可用的元件集。