叢集模型的採礦模型內容 (Analysis Services - 數據採礦)
適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性。
本主題描述使用Microsoft叢集演算法之模型特有的採礦模型內容。 如需所有模型類型的採礦模型內容的一般說明,請參閱 採礦模型內容(Analysis Services - 數據採礦)。
瞭解叢集模型的結構
叢集模型具有簡單的結構。 每個模型都有代表模型及其元數據的單一父節點,而每個父節點都有叢集的一般清單(NODE_TYPE = 5)。 下圖顯示此組織。
用於叢集的模型內容 的模型內容結構
每個子節點都代表單一叢集,並包含該叢集中案例屬性的詳細統計數據。 這包括叢集中案例數目的計數,以及區分叢集與其他叢集的值分佈。
注意
您不需要逐一查看節點,即可取得叢集的計數或描述;模型父節點也會計算並列出叢集。
父節點包含實用的統計數據,描述所有定型案例的實際分佈。 這些統計數據位於巢狀數據表數據行中,NODE_DISTRIBUTION。 例如,下表顯示NODE_DISTRIBUTION數據表中的數個數據列,這些數據列描述叢集模型客戶人口統計數據的分佈,TM_Clustering
,您在 基本數據採礦教學課程中建立:
ATTRIBUTE_NAME | ATTRIBUTE_VALUE | 支援 | 概率 | 方差 | VALUE_TYPE |
---|---|---|---|---|---|
年齡 | 失蹤 | 0 | 0 | 0 | 1 (遺漏) |
年齡 | 44.9016152716593 | 12939 | 1 | 125.663453102554 | 3 (連續) |
性 | 失蹤 | 0 | 0 | 0 | 1 (遺漏) |
性 | F | 6350 | 0.490764355823479 | 0 | 4 (離散) |
性 | M | 6589 | 0.509235644176521 | 0 | 4 (離散) |
從這些結果中,您可以看到有12939例用於建立模型,男性與女性的比例約為50-50,平均年齡為44歲。 描述性統計數據會根據所報告的屬性是連續數值數據類型,例如年齡或離散實值類型,例如性別而有所不同。 統計量值 平均數 和 變異數 會針對連續數據類型計算,而離散數據類型會計算 機率 和 支援。
注意
變異數代表叢集的總變異數。 當變異數的值很小時,表示數據行中的大多數值都相當接近平均值。 若要取得標準偏差,請計算變異數的平方根。
請注意,針對每個屬性,有一個 遺漏 實值類型,告訴您有多少案例沒有該屬性的數據。 視數據類型而定,遺漏的數據可能相當重要,而且會以不同的方式影響計算。 如需詳細資訊,請參閱 遺漏值 (Analysis Services - 資料採礦)。
叢集模型的模型內容
本節僅針對與叢集模型相關的採礦模型內容中的數據行提供詳細數據和範例。
如需架構數據列集中一般用途數據行的相關信息,例如MODEL_CATALOG和MODEL_NAME,請參閱 採礦模型內容 (Analysis Services - 數據採礦)。
MODEL_CATALOG
儲存模型的資料庫名稱。
MODEL_NAME
模型的名稱。
ATTRIBUTE_NAME
叢集模型中一律為空白,因為模式中沒有可預測的屬性。
NODE_NAME
一律與NODE_UNIQUE_NAME相同。
NODE_UNIQUE_NAME
模型內節點的唯一標識符。 這個值無法變更。
NODE_TYPE
叢集模型會輸出下列節點類型:
節點標識碼和名稱 | 描述 |
---|---|
1 (模型) | 模型的根節點。 |
5 (叢集) | 包含叢集中的案例計數、叢集中案例的特性,以及描述叢集中值的統計數據。 |
NODE_CAPTION
方便顯示之用的易記名稱。 當您建立模型時,會自動使用NODE_UNIQUE_NAME的值作為標題。 不過,您可以變更 NODE_CAPTION 的值,以程序設計方式或使用查看器來更新叢集的顯示名稱。
注意
當您重新處理模型時,新值將會覆寫所有名稱變更。 您無法保存模型中的名稱,或追蹤不同模型版本之間的叢集成員資格變更。
CHILDREN_CARDINALITY
估計節點擁有的子係數目。
父節點 指出模型中的叢集數目。
Always 0 叢集節點。
PARENT_UNIQUE_NAME
節點父代的唯一名稱。
父節點 Always NULL
叢集節點 通常為 000。
NODE_DESCRIPTION
節點的描述。
父節點 Always (All)。
叢集節點 區分叢集與其他叢集的主要屬性逗號分隔清單。
NODE_RULE
不適用於叢集模型。
MARGINAL_RULE
不適用於叢集模型。
NODE_PROBABILITY
與此節點相關聯的機率。
父節點 Always 1。
叢集節點 機率代表屬性的複合機率,視用來建立群集模型的演算法而定,有一些調整。
MARGINAL_PROBABILITY
從父節點到達節點的機率。 在群集模型中,臨界機率一律與節點機率相同。
NODE_DISTRIBUTION
包含節點機率直方圖的數據表。
父節點 請參閱本主題簡介。
叢集節點 代表此叢集中所含案例的屬性和值分佈。
NODE_SUPPORT
支援此節點的案例數目。
父節點 指出整個模型的定型案例數目。
叢集節點 指出叢集的大小為數個案例。
注意 如果模型使用 K-Means 叢集,則每個案例只能屬於一個叢集。 不過,如果模型使用EM叢集,則每個案例都可以屬於不同的叢集,且案例會為其所屬的每個叢集指派加權距離。 因此,針對EM模型,個別叢集的支援總和大於整體模型的支援。
MSOLAP_MODEL_COLUMN
不適用於叢集模型。
MSOLAP_NODE_SCORE
顯示與節點相關聯的分數。
父節點 叢集模型的貝氏資訊準則 (BIC) 分數。
Always 0 叢集節點。
MSOLAP_NODE_SHORT_CAPTION
用於顯示用途的標籤。 您無法變更此標題。
父節點 模型的類型:叢集模型
叢集節點 叢集的名稱。 範例:叢集 1。
言論
SQL Server Analysis Services 提供多個方法來建立叢集模型。 如果您不知道使用哪一種方法來建立您正在使用的模型,您可以使用 ADOMD 用戶端或 AMO,或查詢數據採礦架構數據列集,以程式設計方式擷取模型元數據。 如需詳細資訊,請參閱 查詢用來建立採礦模型的參數。
注意
不論您使用的叢集方法或參數為何,模型的結構和內容都保持不變。
另請參閱
採礦模型內容 (Analysis Services - 數據採礦)
數據採礦模型查看器
Microsoft 叢集演算法
數據採礦查詢