共用方式為


將資料指派給叢集

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

使用現有的定型群集模型將資料指派給群集

類別: 分數

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何使用機器學習 Studio (傳統) 中的 [將資料指派給叢集] 模組,以使用以 K 表示的群集演算法定型的群集模型來產生預測。

模組會傳回包含每個新資料點可能指派的資料集。 它也會建立 PCA (主體元件分析) 圖形,以協助您視覺化叢集的維度維度。

警告

此模組會取代指派給叢集 (已淘汰的) 模組,這僅適用于較舊的實驗支援。

如何使用「將資料指派給叢集」

  1. 在機器學習 Studio (傳統) 中,找出先前定型的群集模型。 您可以使用下列其中一種方法來建立和定型群集模型:

    • 使用 k 表示 叢集模組設定 k 表示演算法,然後使用資料集和「 定型群集模型 」模組來定型模型。

    • 使用 k 表示 叢集來設定 k 表示演算法的範圍選項,然後使用「 整理 叢集」模組來定型模型。

    您也可以從工作區中的 [已儲存的模型] 群組,新增現有的定型群集模型。

  2. 將定型的模型附加至將資料指派給叢集的左側輸入連接埠。

  3. 附加新的資料集作為輸入。 在此資料集中,標籤是選用的。 一般來說,群集是一種非監督式的學習方法,因此您不應該事先知道類別。

    但是,輸入資料行必須與用於定型群集模型的資料行相同,否則會發生錯誤。

    提示

    若要減少從群集預測輸出的資料行數目,請使用 [ 選取資料集中的資料行],然後選取資料行的子集。

  4. 如果您想要讓結果包含完整的輸入資料集,) (請將 [只選取 [ 附加] 或 [取消 核取] 選項保留為 [僅選取]。

    如果您取消選取此選項,則只會取回結果。 當您在 web 服務中建立預測時,這可能會很有用。

  5. 執行實驗。

結果

資料指派給 叢集模組會在 結果資料集 輸出上傳回兩種類型的結果:

  • 若要查看模型中的群集分隔,請按一下模組的輸出,然後選取 [視覺化]。

    此命令會顯示將每個群集中的值集合對應至兩個元件軸的主體元件分析 (PCA) 圖形。

    • 第一個元件軸是一組組合的功能,可在模型中捕捉最多變異數。 它會繪製在 X 軸 (主體元件 1) 上。
    • 下一個元件軸代表一組與第一個元件連續的組合功能,並將下一項最重要的資訊新增至圖表。 它會繪製在 y 軸 (主體元件 2) 。

    從圖表中,您可以看到叢集之間的區隔,以及如何在代表主體元件的軸上散發叢集。

  • 若要查看輸入資料中每個案例的結果資料表,請附加 [ 轉換成資料集 ] 模組,並在 Studio (傳統) 中視覺化結果。

    此資料集包含每個案例的叢集 指派 ,以及讓您瞭解此特定案例如何接近叢集中心的距離度量。

    輸出資料行名稱 說明
    指派 以0為起始的索引,表示資料點指派給哪個叢集。
    DistancesToClusterCenter 否。 n 針對每個資料點,此值會指出從資料點到所指派叢集中心的距離,以及與其他叢集的距離。

    用來計算距離的度量是在您設定 K 表示群集模型時所決定。

預期的輸入

名稱 類型 Description
定型的模型 ICluster 介面 定型的群集模型
資料集 資料表 輸入資料來源

模組參數

名稱 類型 範圍 選擇性 預設 描述
僅附加或結果 必要 TRUE 指出輸出資料集是否應包含輸入資料集以及結果,或只包含結果
指定參數掃掠模式 清理方法 清單:整個方格 |隨機清理 必要 隨機掃掠 在參數空間上掃掠整個方格,或使用有限的取樣次數來掃掠

輸出

名稱 類型 說明
結果資料集 資料表 指派資料行或僅指派資料行所附加的輸入資料集

例外狀況

例外狀況 描述
錯誤 0003 如果一或多個輸入為 Null 或空白,就會發生例外狀況。

另請參閱

K-Means 群集
分數