共用方式為


分隔方法

有些用來在 Microsoft SQL Server 2005 Analysis Services (SSAS) 中建立資料採礦模型的演算法需要特定內容類型,才能正確運作。例如,像 Microsoft 貝氏機率分類演算法之類的一些演算法無法使用連續資料行作為輸入,或無法預測連續值。另外,有些資料行可能包含太多值,使得演算法不容易識別資料中的模式來建立模型。

在這些情況下,您可以分隔資料行中的資料,以便使用演算法來產生採礦模型。分隔是將連續日期集的值放入值區內的程序,以產生一些分隔的可能狀態。值區本身會被視為已排序且會分隔值。您可以分隔數值和字串資料行。

您有許多方法可用來分隔資料。每一個方法會使用下列程式碼範例中的方程式,來自動計算要產生的值區數目:

Number of Buckets = sqrt(n)

在此程式碼範例中,n 是資料行中的資料相異值數目。如果您不想要 Analysis Services 計算值區數目,則可使用 DiscretizationBuckets 屬性來手動指定值區數目。

下表描述您可用來分隔 Analysis Services 中之資料的方法。

分隔方法 描述

AUTOMATIC

Analysis Services 會決定要使用的分隔方法。

CLUSTERS

演算法會將資料分成群組,流程是先取樣培訓資料、初始化為一些隨機點,然後使用 Expectation Maximization (EM) 群集方法來執行 Microsoft 群集演算法的數次反覆運算。CLUSTERS 方法很有用,因為它在任何分佈曲線上都可以運作。不過,它比其他分隔方法需要更多的處理時間。

這個方法只能用於數值資料行。

EQUAL_AREAS

演算法會將資料分成數個值的數目相同之群組。這個方法最適合標準分佈曲線,但如果分佈中有大量的值集中在連續資料的群組中,則效果不佳。例如,若在案例圖表所指定的訂單項目中,有一半的 Cost 值是 0,則有一半的資料將會出現在曲線的單一點之下。在這樣的分佈中,這個方法會將資料再細分,以建立成多個區域的相等分隔。這樣會產生不精確的資料呈現。

您可以使用 EQUAL_AREAS 方法來分隔字串。

CLUSTERSTHRESHOLDS 方法使用 1000 筆隨機取樣記錄來分隔資料。如果您不想要演算法取樣資料,請使用 EQUAL_AREAS 方法。

請參閱

概念

內容類型 (資料採礦)
資料採礦演算法
採礦結構 (Analysis Services)
資料類型 (資料採礦)

其他資源

內容類型 (DMX)
採礦結構資料行

說明及資訊

取得 SQL Server 2005 協助