探索時序群集模型 (中繼資料採礦教學課程)
既然您已使用區域模型建置時序叢集,您可以在資料採礦Designer的[採礦模型檢視器] 索引標籤中使用 Microsoft 時序叢集檢視器來探索它。 Microsoft 時序叢集檢視器包含五個索引標籤: 叢集圖表、 叢集設定檔、 叢集特性、 叢集散發和 狀態轉換。 如需如何使用這個檢視器的詳細資訊,請參閱 使用 Microsoft 時序叢集檢視器流覽模型。
[群集圖表] 索引標籤
[ 叢集圖表] 索引標籤會以圖形方式顯示演算法在資料庫中探索到的叢集。 圖表的配置代表群集的關聯性,而且類似的群集會緊密地聚集在一起。 依預設,每一個節點的陰影都代表群集中所有案例的密度:節點的陰影越暗,表示它所包含的案例越多。 您可以變更節點陰影的意義,使它在每一個群集中代表屬性和狀態的支援。
您也可以重新命名群集,讓您可以更輕鬆地識別及處理目標群集。 在此教學課程中,我們將會重新命名太平洋地區具有最高客戶百分比的群集,以及整體上具有最多案例的群集。
注意
當您重新處理此模型時,指派給特定群集的案例可能會變更 (視資料和模型參數而定)。 此外,如果您重新命名群集,在您重新處理採礦模型時將會遺失名稱。
若要變更用於反白顯示群集的屬性
在 [網底變數 ] 清單中,選取 [模型]。
在[狀態] 清單中選取 [迴圈上限]。
此圖表會更新,以顯示每一個群集中選定產品的聚集程度。 具有最暗陰影的群集所包含的 Cycling Cap 密度最高。 您可以變更網底變數,以使用任何輸入資料行的任何狀態。
在 [網底變數 ] 清單中,選取 [ 母體擴展]。
當您將陰影變數變更成母體時,此圖表就會更新,根據大小來比較群集。 具有最暗陰影的群集所包含的案例要比其他群集多。
若要重新命名模型內的節點
將 [網底變數 ] 變更為
Region
,並將 [狀態 ] 設定為 Pacific。反白顯示圖表中最暗的節點。
以滑鼠右鍵按一下此叢集,然後選取 [重新命名叢集]。
輸入名稱 Pacific Cluster。
將 Shading Variable 的值變更為 Population。
在更新的圖表中,尋找最暗的群集,這應該是最大的群集。 如果您不能從陰影來判斷哪一個群集最大,請將滑鼠暫時放在每一個群集的上方,並檢視工具提示,然後選擇包含最多案例的群集。
以滑鼠右鍵按一下此叢集,然後選取 [重新命名叢集]。 輸入新名稱 。
Largest Cluster
您可以從代表此群集的節點鑽研,以檢視位於每一個群集內之案例的詳細資料。 如果您想要針對分析的結果採取動作,例如傳送電子郵件給客戶,這樣的作法會很實用。 您也可以瀏覽您已併入結構內,但是未在模型內使用之案例的其他屬性,例如 Region 和 IncomeGroup。 如需從採礦模型鑽研到基礎案例的詳細資訊,請參閱鑽研 查詢 (資料採礦) 。
若要從群集圖表鑽研到詳細資料
以滑鼠右鍵按一下
Pacific Cluster
,選取 [ 鑽研],然後選取 [模型] 和 [結構] 資料行。[ 鑽研] 對話方塊隨即開啟。 模型中未使用但可用於查詢的資料行前面會加上 Structure。
您可以看到這個群集包含的客戶大多是來自太平洋地區,只有少數客戶來自其他地區。
按一下巢狀資料行 v Assoc Seq Line Items 中的加號,以檢視特定客戶訂單中項目的序列。
關閉 [ 鑽研 ] 對話方塊。
注意
[ 播放] 按鈕可讓您重新查詢資料;不過,重新查詢不會變更顯示的資料,除非模型已由其他程式在背景動態更新。
[群集設定檔] 索引標籤
[ 叢集設定檔] 索引標籤會顯示每個叢集中的序列。 叢集會列在 [狀態 ] 資料行右邊的個別資料行中。
在檢視器中, Model 資料列描述叢集中專案的整體分佈,而 Model.samples 資料列包含專案的序列。 Model.samples資料列中每個儲存格中的每一行色彩序列都代表叢集中隨機選取使用者的行為。
個別序列長條圖中的每個顏色都代表一個產品型號。 採礦圖例會同時使用色彩編碼和產品型號名稱來顯示產品的序列。 如果您已經將其他資料行加入到模型內進行群集,例如 Region 或 Income Group,檢視器將會針對每一個資料行各包含另一個資料列,該資料列會顯示這些值在每一個群集內的分佈。
若要檢視群集中最常見的序列
以滑鼠右鍵按一下叢集
Largest Cluster
資料行中的[模型]資料列,然後選取 [顯示圖例]。Color資料行包含一個陰影列,指出序列中找到的專案頻率。 每一個項目都由不同的色彩表示。 [意義] 資料行會列出每個色彩的產品型號名稱。 [ 散發 ] 資料行會告訴您序列中包含此專案的案例百分比。
關閉 [採礦圖例]。
以滑鼠右鍵按一下資料行中標題為 Population 的 Model.samples 資料列 , 然後選取 [ 顯示圖例]。
掃描整體模型中的序列清單
.
[採礦圖例] 會先列出最常見的序列,好讓您可以看到 Mountain Tire Tube 在許多序列中都是第一個項目。 這表示客戶非常可能會先將 Mountain Tire Tube 放在購物籃中。
若要從群集檢視器鑽研到案例
在 [屬性] 窗格中向下捲動,直到您找到屬性的資料
Region
列為止。資料列包含模型中每個叢集的長條圖,再加上一個用於 Population的額外長條圖,這表示模型中所使用的整個案例集。 長條圖是一個具有不同色彩的長條,每一個色彩都代表一個屬性,而該屬性之色彩區段的大小則代表具有該屬性之案例的百分比。
比較您重新命名
Pacific Cluster
和Largest Cluster
之叢集的長條圖。 每一個群集都會出現在不同的資料行內。兩者看起來都是純色,但是色彩不同。
在資料
Region
列中,將滑鼠停留在 的彩色長條圖Largest Cluster
上。工具提示會顯示值,這些值代表每一個地區之案例的實際百分比。
以滑鼠右鍵按一下 資料列中
Region
Pacific Cluster
的彩色長條圖,選取 [ 鑽研],然後選取 [ 僅限模型資料行]。移動捲軸來檢閱這個群集中的所有客戶。
同樣地,鑽研到詳細資料可讓您看到此群集大多包含來自太平洋地區的訂單,但也有少數來自北美和歐洲地區。
關閉 [ 鑽研 ] 對話方塊。
[群集特性] 索引標籤
[ 叢集特性 ] 索引標籤會藉由顯示以視覺化方式代表所選叢集屬性值重要性的橫條,摘要說明叢集中狀態之間的轉換。 [ 變數 ] 資料行會告訴您模型對於選取的叢集或母體而言很重要:特定值或值之間的關聯性,稱為 轉換。 [ 值 ] 資料行提供有關值或轉換的詳細資料,而 Probability 資料行以視覺化方式代表此屬性或轉換的權數。
若要檢視群集的重要屬性
在 [ 叢集] 下拉式清單中,選取
Pacific Cluster
。清單會更新以顯示您重新命名
Pacific Cluster
之叢集的特性。 在此叢集中,最重要的特性是Region
。將滑鼠停留在 資料列中
Region
的陰影列上。這個值為 Pacific 的機率很高。 如需如何解譯這些值的詳細資訊,請參閱 Microsoft 時序群集演算法技術參考。
查看群集的特性清單,直到您找到第一個轉換資料列為止。
轉換資料列包含 [ 變數 ] 資料行中的 [轉換] 文字,以及 Value 資料行中循序屬性值的一些組合。 此序列也可包含起點和遺漏的值。
例如,假設轉換具有值 [Start] - > Road Tire Tube。 這表示此群集中的客戶經常會將 Road Tire Tube 先放在他們的購物籃中。 這可能表示,此產品是客戶會先尋找的熱賣商品,或者可能只表示,此產品很容易在購買網站上找到。
捲動清單,直到您發現其中沒有 [Start] 或 遺漏 的第一個轉換。
例如,假設您發現 轉換,Touring Tire,Touring Tire 管。 這表示此群集中的客戶經常一起購買這些項目 (與這個順序完全相同)。
將滑鼠暫時放在這個轉換的陰影長條上方。
這個轉換的機率會顯示成百分比。
在 [ 叢集] 下拉式清單中,選取 [ 母體擴展] ([所有) ]。
屬性的清單會更新,以顯示用來建立模型之所有訂單的特性。 在此採礦模型中,區分叢集的最重要特性是
Region
,值為北美洲。
檢閱這些工作以後,您得知兩件事。 第一件就是您需要很多的資料,才能取得有意義的組合數目。 例如,具有最高機率的序列可能會包含 [Start] 或 [Missing ] 狀態。
第二個是,對於 的屬性有強式叢集效果 Region
,因此更難以查看序列群組。 因此,您決定建立另一個只使用序列的模型,而且不包括地區或收入資料行。
[群集辨識] 索引標籤
[ 叢集辨識 ] 索引標籤可協助您比較兩個叢集,以判斷哪些屬性區分特定叢集與另一個叢集。 索引標籤包含四個數據行: 變數、 值、 叢集 1和 叢集 2。 您可以選擇任何作為 叢集 1 和 叢集 2 使用的叢集。
[變數] 資料行會告訴您屬性的名稱,可以是資料行名稱或資料行名稱和文字轉換的組合。 [ 值 ] 資料行會顯示內容或轉換的確切值。 叢集 1 和叢集2資料行中的陰影橫條表示您要比較之叢集中屬性的強度。 長條越長,就表示此群集包含具有該屬性之案例的可能性越高。
若要使用群集辨識索引標籤來比較兩個群集
在 [ 叢集辨識] 索引標籤的 [ 叢集 1] 中,選取
Pacific Cluster
。根據預設, 叢集 2 的選取專案會變更為 Pacific Cluster 的補數。
與所有其他案例區別
Pacific Cluster
的最上層屬性是區域。 地區是一個很強的群集屬性,它會讓其他屬性相形失色。 為了避免這樣的影響,請嘗試互相比較幾個較小的群集。 當您這樣做時,屬性的清單會變更,而且可能包括模型之間的更多轉換。找出轉換資料列,然後將滑鼠暫時放在陰影長條上方。
[值] 資料行中的專案可以同時包含狀態和轉換。 每個項目的陰影代表辨識率。 若要深入瞭解不同分數的意義,請參閱 Analysis Services - 資料採礦) 的時序群集模型採礦模型內容 (。
[狀態轉換] 索引標籤
在 [ 狀態轉換] 索引 標籤上,您可以選取叢集並流覽其狀態轉換。 如果您從叢集下拉式清單中選取 [ 母體擴展 (全部) ],圖表會顯示整個採礦模型的狀態分佈。
圖表中的每個節點都代表一種狀態,或是您嘗試分析之序列的可能值。 節點的背景色彩代表該狀態的頻率。 線條會連接某些狀態,這表示狀態之間的轉換。 您可以將滑動軸上移或下移來變更轉換的機率臨界值。 數字與某些節點有關,這表示該狀態的機率。
若要在狀態轉換索引標籤中探索關聯性
在 [採礦模型檢視器] 的 [ 狀態轉換 ] 索引標籤中,從叢集清單中選取
Pacific Cluster
。 確定已選取 [ 顯示邊緣標籤 ] 選項。此圖表會更新,以顯示該群集中最常用的轉換。
按一下透過一條線與另一個節點連接的任何節點。
此圖表會更新,並反白顯示相關的節點。 此線條旁邊的數值表示轉換的機率。
將滑杆向上向上移至 [所有連結],以增加圖形中包含的轉換數目。
從叢集選取 [母體擴展 ([所有) ]。
請注意,當您載入不同群集時,此圖表會重設為預設顯示設定,好讓滑動軸控制項重設為中間位置。
按一下圖形中最深的節點,這應該是 Sport-100。
請注意,沒有任何線條可將這個產品連接其他產品。
將滑動軸上移一個步驟,以增加圖表中包含的轉換數。 還不要一直移至 [所有連結 ]。
此圖表會更新,其方式是在圖表中加入其他幾個轉換,但是不能有包含 Sport-100 模型的轉換。
將滑杆控制項一路移至 [所有連結]。 按一下 [Sport-100] 節點 (若尚未選取)。
此圖表會更新,以顯示許多包含 Sport-100 產品的轉換。 連接線上箭頭的方向告訴您,Sport-100 項目選為此配對中的第一個項目還是第二個項目。
按一下 Touring Tire 的節點,並將滑動軸控制項往下移回中間位置。
一開始有許多轉換線會將 Touring Tire 連接到其他產品,但當您提高機率閾值時,圖表中會消除較不有可能的轉換,只留下轉換 Touring Tire Touring Tire > Tube。 這個轉換表示,如果某位客戶將 Touring Tire 放入購物籃,則該客戶接著將 Touring Tire Tube 也放入購物籃的機率很高。
一般內容樹狀檢視器
此檢視器可用於所有模型,不論演算法或模型類型為何。 您可以從 [檢視器] 下拉式清單中取得MicrosoftGeneric 內容樹狀檢視器。
內容樹狀結構會將任何採礦模型表示為一系列的節點,其中的每一個節點都表示所學習到有關定型資料的知識。 節點可以包含模式、一組規則、群集,或是共用某些屬性之日期範圍的定義。 節點的確切內容會因為演算法和可預測屬性而有所不同,但是內容的一般表示都是相同的。
您可以展開每一個節點,以查看詳細資料的遞增層級,並將任何節點的內容複製到剪貼簿。 如需詳細資訊,請參閱 使用 Microsoft 一般內容樹狀檢視器瀏覽模型。
若要使用一般內容樹狀檢視器檢視時序群集模型的詳細資料
在 [ 採礦模型檢視器] 索引標籤中,按一下 [ 檢視器 ] 清單,然後選取 [Microsoft 一般內容樹狀檢視器]。
在 [ 節點標題] 窗格中,按一下
Pacific Cluster (1)
。這個節點的名稱同時包含您指派給群集的易記名稱和基礎節點識別碼。 您可以使用節點識別碼,向下鑽研到模型內的其他詳細資料。
展開叢集 1 的第一個子節點,名為 Sequence 層級。
群集的時序層級節點包含有關該群集內包含之狀態和轉換的詳細資料。 您可以使用 NODE_DISTRIBUTION 資料行中提供的這些詳細資料,以整體方式探索每一個群集或模型的時序和狀態。
繼續展開節點,並在 HTML 檢視器窗格中檢視詳細資料。
如需採礦模型內容的詳細資訊,以及如何在檢視器中使用詳細資料,請參閱 Analysis Services - 資料採礦) 之時序群集 (模型的採礦模型內容 。