Microsoft 貝氏機率分類演算法
Microsoft 貝氏機率分類演算法是 Microsoft SQL Server 2005 Analysis Services (SSAS) 所提供用於預測模型的分類演算法。此演算法會計算輸入資料行和可預測資料行之間的條件式機率,並假設資料行是獨立的。這種獨立性假設產生了貝氏機率分類這個名稱,假設通常很單純,因為透過這樣的假設,演算法不會考慮可能存在的相依性。
此演算法比其他 Microsoft 演算法更少計算,因此對於快速產生採礦模型來探索輸入資料行和可預測資料行之間的關聯性很有用。您可以使用此演算法來執行資料的初始瀏覽,然後您可以套用其結果,以其他更多計算和更精確的演算法來建立其他採礦模型。
範例
作為一項正在進行的促銷策略,Adventure Works Cycle 公司的行銷部門決定郵寄廣告傳單來鎖定目標潛在客戶。為了減少成本,他們想要將廣告傳單只寄給那些有可能回應的客戶。公司會將有關人口統計資料和舊郵件的回應等資訊儲存在資料庫中。他們想要使用此資料來瞭解人口統計資料 (例如年齡和地點) 如何協助預測促銷的回應,藉由將潛在客戶與具有類似特性而且過去曾向公司購買產品的客戶做比較。尤其,他們想要看看那些有購買腳踏車和沒有購買腳踏車的客戶之間的差異。
使用 Microsoft 貝氏機率分類演算法,行銷部門可以快速預測特定客戶設定檔的結果,因此可以判斷哪些客戶最有可能對廣告傳單做出回應。使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機率分類檢視器,他們還可以利用視覺化方式來調查哪些輸入資料行促成廣告傳單的正面回應。
演算法的運作方式
在提供了可預測資料行的每一個可能狀態之後,Microsoft 貝氏機率分類演算法可計算出每一個輸入資料行的每一個狀態的機率。您可以使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機率分類檢視器,來查看演算法如何散發狀態的視覺表示法,如下列圖形所示。
在提供了可預測資料行的每一個狀態之後,Microsoft 貝氏機率分類檢視器可列出資料集內的每一個輸入資料行,並顯示如何散發每一個資料行的狀態。您可以使用此檢視來識別在區分可預測資料行的狀態時很重要的輸入資料行。例如,在此處所顯示的 Commute Distance 資料行中,如果客戶與工作地點的通勤距離是 1 到 2 英里,則其購買腳踏車的機率是 0.387,而如果他們通勤的話,則不購買腳踏車的機率是 0.287。在此範例中,演算法會使用從客戶特性中衍生的數值資訊 (例如通勤距離),來預測客戶是否會購買腳踏車。如需有關使用 Microsoft 貝氏機率分類檢視器的詳細資訊,請參閱<以 Microsoft 貝氏機率分類檢視器檢視採礦模型>。
使用演算法
貝氏機率分類模型必須包含索引鍵資料行、輸入資料行和一個可預測資料行。所有資料行都必須是分隔或分隔式資料行。如需有關分隔資料行的資訊,請參閱<分隔方法>。
Microsoft 貝氏機率分類演算法支援特定輸入資料行內容類型、可預測資料行內容類型和模型旗標,這些都會在下表中列出。
輸入資料行內容類型 |
Cyclical、Discrete、Discretized、Key、Table 和 Ordered |
可預測資料行內容類型 |
Cyclical、Discrete、Discretized、Table 和 Ordered |
模型旗標 |
MODEL_EXISTENCE_ONLY 和 NOT NULL |
所有 Microsoft 演算法都支援一個常用函數集。不過,Microsoft 貝氏機率分類演算法支援下表所列出的其他函數。
如需所有 Microsoft 演算法常用的函數清單,請參閱<資料採礦演算法>。如需有關如何使用這些函數的詳細資訊,請參閱<資料採礦延伸模組 (DMX) 函數參考>。
Microsoft 貝氏機率分類演算法不支援使用預測模型標記語言 (PMML) 來建立採礦模型。
Microsoft 貝氏機率分類演算法支援數個會影響所產生之採礦模型的效能和精確度的參數。下表描述每一個參數。
參數 | 描述 |
---|---|
MAXIMUM_INPUT_ATTRIBUTES |
指定在叫用功能選項之前,演算法可以處理輸入屬性的最大數目。將此值設定為 0,會停用輸入屬性的功能選項。 預設值為 255。 |
MAXIMUM_OUTPUT_ATTRIBUTES |
指定在叫用功能選項之前,演算法可以處理輸出屬性的最大數目。將此值設定為 0,會停用輸出屬性的功能選項。 預設值為 255。 |
MINIMUM_DEPENDENCY_PROBABILITY |
指定介於輸入和輸出屬性之間的最小相依機率。這個值會用來限制演算法所產生之內容的大小。此屬性可設定為 0 到 1。越大的值會減少模型內容中的屬性數目。 預設值為 0.5。 |
MAXIMUM_STATES |
指定演算法所支援屬性狀態的最大數目。如果屬性擁有的狀態數目大於狀態的最大數目,演算法會使用屬性最常用的狀態並將其餘的狀態視為遺漏。 預設值為 100。 |
請參閱
概念
資料採礦演算法
分隔方法
資料採礦的功能選擇
使用資料採礦工具
以 Microsoft 貝氏機率分類檢視器檢視採礦模型