內容類型 (資料採礦)
在 Microsoft SQL Server Analysis Services 中,您可以同時定義採礦結構中資料行的實體資料類型,以及定義此資料行如何用於模型中的邏輯內容類型。
「資料類型」會決定當您建立採礦模型時,演算法要如何處理這些資料行中的資料。 定義資料行的資料類型會提供資訊給演算法,這是有關資料行中的資料類型及如何處理資料的資訊。 Analysis Services 中的每一個資料類型都會支援一個或多個適用於資料採礦的內容類型。
「內容類型」會描述資料行所包含之值的行為。 例如,若資料行中的資料值經常會以特定間隔重複 (例如每星期幾),您可以指定該資料行的內容類型為循環。
有些演算法需要特定資料類型和/或特定內容類型才能正確運作。 例如,Microsoft 貝氏機率分類演算法無法使用連續資料行做為輸入,也無法預測連續值。 因此,這類資料行必須從模型排除或離散化。 某些內容類型 (如 Key Sequence) 只會由特定的演算法所使用。 如需每一項所支援之演算法和內容類型的清單,請參閱<資料採礦演算法 (Analysis Services - 資料採礦)>。
下列清單描述資料採礦中使用的內容類型,並列出支援每一種內容類型的資料類型。
Discrete
Discrete 代表資料行包含有限數量的值,且值之間沒有延續。 例如,類似性別的資料行是一個典型的離散屬性資料行,因為其資料代表特定數量的類別目錄。 如果此資料行包含文字,則類型會自動設定為 discrete。 但是,如果資料行包含具有數值標籤的離散值 (例如在性別資料行中,男性可能會標示為 0,而女性標示為 1),您可能需要將內容類型從連續變更為離散。
即使用於離散資料行的值為數值,也無法計算小數值。 電話區碼是離散數值資料的理想範例,但是不應該用於計算。 此外,離散屬性資料行中的值不代表排序,即使值為數值。
Discrete 內容類型可以套用到所有資料採礦資料類型的資料行。
連續
Continuous 表示此資料行包含的值代表小數位數允許過渡值的數值資料。 與代表有限可計算資料的離散資料行不同,連續資料行代表可擴充的度量,其資料可能包含無限個小數值。 溫度資料行就是連續屬性資料行的一個範例。
當資料行包含連續數值資料,而且您知道應該要如何散發資料時,您可以指定預期的值分佈來提升分析的精確度。 您會在採礦結構的層級上指定資料行散發。 因此,此設定會套用到根據此結構的所有模型。 如需詳細資訊,請參閱<資料行散發 (資料採礦)>。
Continuous 內容類型可以套用到具有以下資料類型的資料行:Date、Double 和 Long。
Discretized
「離散化」(Discretization) 是將連續資料集的值放入值區內的程序,以產生有限數目的可能值。 您只能離散化數值資料。
因此,「離散化」(Discretized) 內容類型表示此資料行包含的值代表從連續資料行衍生之值的群組或值區。 值區會被當成已排序的分隔值來處理。
您可以手動離散化資料,以確保您能取得所要的值區,或者可以使用在 SQL Server Analysis Services 中提供的離散化方法。 某些演算法會自動執行離散化。 如需詳細資訊,請參閱<變更採礦模型中的資料行離散化>。
Discretized 內容類型可以套用到具有以下資料類型的資料行:Date、Double、Long 和 Text。
Key
key 內容類型表示資料行會唯一識別資料列。 在案例資料表中,索引鍵資料行通常是數值的或文字的識別碼。 當您將內容類型設定為 key 時,代表資料行只可以用於追蹤記錄,而不能用於分析。
巢狀資料表也具有索引鍵,但巢狀資料表索引鍵的用法稍有不同。 如果資料行是您想要分析的屬性,請在巢狀資料表中將內容類型設定為 key。 每個案例的巢狀資料表索引鍵值都必須是唯一的,但在整個案例集合中可能會有重複的值。
例如,如果要分析客戶購買的產品,則可以將內容類型設定為案例資料表中 CustomerID 資料行的 key,然後再次將內容類型設定為巢狀資料表中 PurchasedProducts 資料行的 key。
[!附註]
只有當您使用 Analysis Services 資料來源檢視中定義之外部資料來源的資料時,才可以使用巢狀資料表。
這個內容類型受下列資料類型所支援:Date、Double、Long 和 Text。
Key Sequence
key sequence 內容類型只能用於時序群集模型。 將內容類型設定為 key sequence 時,代表資料行包含代表事件序列的值。 其值已排序,但不必為等距。
這個內容類型受下列資料類型所支援:Double、Long、Text 和 Date。
Key Time
key time 內容類型只能用於時間序列模型。 將內容類型設定為 key time 時,代表值已排序且代表時段。
這個內容類型可以套用到具有以下資料類型的資料行:Double、Long 和 Date。
Table
table 內容類型表示資料行包含另一個資料表,資料表內有一個或多個資料行及一個或多個資料列。 對於案例資料表中的任何特定資料列,這個資料行也可以包含多個全與父案例記錄相關的值。 例如,如果主要案例資料表包含客戶清單,則您可以擁有數個包含巢狀資料表的資料行,例如 ProductsPurchased 資料行 (其中巢狀資料表會列出此客戶過去購買的產品) 及 Hobbies 資料行 (列出客戶興趣)。
此資料行的資料類型一定是 Table。
Cyclical
cyclical 內容類型表示資料行包含了代表循環之已排序集合的值。 例如,有編號的星期幾就是一個循環已排序集合,因為第 7 天後面就是第 1 天。
在內容類型方面,循環資料行會被視為已排序且分隔。
這個內容類型可以套用到任何 Analysis Services 資料類型的資料行,除了 table 和 Boolean 以外。不過,大部分的演算法都將循環值視為離散值,因此不會執行特殊處理。
Ordered
Ordered 內容類型也表示包含了定義順序或次序之值的資料行。 但是,在這個內容類型中,用於排序的值不表示該集合中各值之間的距離或大小關聯性。 例如,若已排序屬性資料行包含有關技能層級的資訊,按照 1 到 5 的次序排序,則技能層級之間的距離沒有任何隱含資訊;技能層級 5 不一定比技能層級 1 好 5 倍。
已排序的屬性資料行會被視為包含離散值。
此內容類型可以套用到 Analysis Services 中的所有資料採礦資料類型。不過,大部分的演算法都將已排序的值視為離散值,因此不會執行特殊處理。
Classified
除了前述常用於所有模型的內容類型之外,您可以使用分類資料行來定義某些資料類型的內容類型。 如需有關分類資料行的詳細資訊,請參閱<分類資料行 (資料採礦)>。