資料採礦精靈 (Analysis Services - 資料採礦)
每次將新的採礦結構加入至資料採礦專案時,MicrosoftSQL ServerAnalysis Services 中的資料採礦精靈就會啟動。此精靈可幫助您定義新的採礦結構,並選擇您將用於資料採礦的資料來源。此精靈也可以將採礦結構中的資料分割成定型集和測試集,並幫助您針對每個結構加入初始採礦模型。
採礦結構的內容是衍生自現有的資料來源檢視或 Cube。您可以選擇要在採礦結構中包含什麼資料行。所有以該結構為基礎的模型都可以使用這些資料行。您甚至可以讓資料採礦模型的使用者從採礦模型的結果進行鑽研,以查看未包含在採礦模型本身中的其他採礦結構資料行。
使用資料採礦精靈建立資料採礦結構及模型時,必須進行下列決策:
是否要從關聯式資料庫或從 OLAP 資料庫之現有的 Cube 中,建立資料採礦結構和模型。
要在培訓以及在測試中各使用多少資料。將採礦結構資料分割成培訓集和測試集時,以該結構為基礎的所有模型都可以使用該測試集。
要針對預測使用哪些資料行或屬性,以及要使用哪些資料行或屬性做為分析的輸入。每個結構都必須包含一個可唯一識別案例記錄的索引鍵。
要使用哪個演算法。SQL ServerAnalysis Services 中提供的演算法各具有不同的特性,且會產生不同的結果。您可以使用不同的演算法建立多個模型,或變更演算法的參數以建立不同的模型。.
資料採礦精靈提供協助您進行上述決策的功能:
定義案例集的精靈頁面。您可以從關聯式資料來源選擇案例資料表和巢狀資料表,或是選擇 OLAP 資料來源,然後選取案例索引鍵和案例層級資料行,並選擇性地設定 Cube 的篩選。
對話方塊,可分析資料行中的資料並建議資料行的用法。
自動偵測資料行內容和資料類型。
如果採礦模型是以 OLAP 資料來源為基礎,則會自動配量 Cube。
完成資料採礦精靈之後,您可以使用資料採礦設計師來修改採礦結構和模型、檢視模型的精確度、檢視結構和模型的特性,或使用模型進行預測。
**如需詳細資訊,請參閱:**<資料採礦設計師>。
使用資料採礦精靈
若要啟動資料採礦精靈,請使用方案總管或 Business Intelligence Development Studio 中的 [專案] 功能表,將新的採礦結構加入 Analysis Services 專案中。
資料採礦精靈有兩個分支,端視您的資料來源為關聯式或是在 Cube 中而定:
關聯式採礦模型
OLAP 採礦模型
[!附註]
您不需要 Cube 或 OLAP 資料庫,也可以進行資料採礦。除非您的資料已儲存在 Cube 中,或是您想要採礦 OLAP 維度或是 OLAP 彙總或計算的結果,否則我們建議您針對資料採礦使用關聯式資料表或資料來源。
關聯式採礦模型
在 Analysis Services 中從關聯式資料來源建立採礦模型時,您首先要在資料採礦精靈中,指定您要使用現有的關聯式資料庫來定義模型的結構。您也可以選擇只建立採礦結構,或建立採礦結構及一個相關聯的資料採礦模型。如果您選擇建立採礦模型,則必須指定選取最適合您要的資料採礦分析類型的演算法,以指定要使用的資料採礦技術。
**如需詳細資訊,請參閱:**<資料採礦演算法 (Analysis Services - 資料採礦)>。
指定資料來源檢視和資料表類型
精靈中的下一個步驟是選取您要用來定義採礦結構的特定資料來源檢視,並指定案例資料表。案例資料表會用來培訓資料採礦模型,或者也可以用於測試。您也可以指定巢狀資料表。
選取案例資料表是一個重要的決策。案例資料表應該包含您想要分析的實體:例如,客戶和客戶的人口統計資訊。巢狀資料表通常會包含有關案例資料表內實體 (例如客戶所進行之交易) 的詳細資訊,或是與實體具有多對一關聯性的屬性。例如,聯結到 Customers 案例資料表的巢狀資料表可能包含每個客戶所購買的產品清單或是嗜好清單。**如需詳細資訊,請參閱:**<巢狀資料表 (Analysis Services - 資料採礦)>。
指定資料行使用方式
在指定案例資料表和巢狀資料表之後,您可以在採礦結構要包含的資料表中決定每一個資料行的使用類型。如果您不指定資料行的使用類型,採礦結構將不會包含此資料行。
資料採礦資料行有四種類型:索引鍵、輸入、可預測或輸入和可預測的組合。索引鍵資料行包含資料表中每一個資料列的唯一識別碼。某些採礦模型 (例如以時序群集或時間序列演算法為根據的模型) 可以包含多個索引鍵資料行。不過,這多個索引鍵並非具有關聯性意義的複合索引鍵,而是必須選取以提供時間序列和時序群集分析支援的索引鍵。如需詳細資訊,請參閱<Microsoft 時間序列演算法>或<Microsoft 時序群集演算法>。
輸入資料行提供可用來執行預測的資訊。可預測資料行包含您嘗試在採礦模型中預測的資訊。
例如,一系列資料表可能包含客戶識別碼、人口統計資訊,以及每一位客戶花費在特定商店的貨幣金額。客戶識別碼可唯一識別客戶,並將案例資料表與巢狀資料表產生關聯性;因此,您會使用客戶識別碼當做索引鍵資料行。您可以從人口統計資訊中選取一組資料行作為輸入資料行,以及描述每一位客戶花費之貨幣金額的資料行作為可預測資料行。然後,您可以建立採礦模型,在人口統計和客戶在商店中花費多少金額之間建立關聯性。您可以使用此模型作為目標行銷的基礎。
資料採礦精靈提供 [建議] 功能,在選取可預測資料行時會啟用此功能。資料集包含的資料行通常比您建立採礦模型所需的資料行更多。[建議] 功能表會計算數值分數,從 0 到 1,描述資料集內的每一個資料行和可預測資料行之間的關聯性。這項功能會依據此分數,建議用來作為採礦模型輸入的資料行。如果使用 [建議] 功能,您可以使用建議的資料行、修改選取範圍以符合您的需求,或忽略建議。
指定內容和資料類型
在選取一或多個可預測資料行和輸入資料行之後,您可以指定每一個資料行的內容和資料類型。
**如需詳細資訊,請參閱:**<資料類型 (資料採礦)>、<內容類型 (資料採礦)>。
將資料分割成培訓集和測試集
在您完成精靈之前的最後一個步驟是將資料分割成培訓集和測試集。將資料的一部分做為測試的鑑效組是 SQL Server 2008 中的新功能,此功能提供易於使用的機制,可確保所有與新採礦結構相關聯的採礦模型都能使用一致的資料集。
您可以將資料的特定百分比用於測試,而將剩餘的所有資料用於定型。您也可以指定用於測試的案例數。資料分割的定義會與採礦結構儲存在一起,所以每當您根據結構建立新模型時,就可以使用測試資料集來評估模型的精確度。
**如需詳細資訊,請參閱:**<驗證資料採礦模型 (Analysis Services - 資料採礦)>、<將資料分割成培訓集和測試集 (Analysis Services - 資料採礦)>。
正在完成精靈
此精靈中的最後一個步驟為命名採礦結構和相關聯的採礦模型。如果您選取 [允許使用鑽研],就會在模型中啟用鑽研功能。如此可讓具有適當權限的使用者瀏覽用來建立此模型的來源資料。
**如需詳細資訊,請參閱:**<針對採礦模型和採礦結構使用鑽研 (Analysis Services - 資料採礦)>。
回到頁首
OLAP 採礦模型
在 Analysis Services 中從 OLAP 資料來源建立多維度採礦模型時,您首先要在資料採礦精靈中,指定您要使用現有的 Cube 來定義模型的結構。您也可以選擇只建立採礦結構,或建立採礦結構及一個相關聯的資料採礦模型。如果選擇建立採礦模型,則您必須指定選取最適合您商務問題的演算法,以指定要使用的資料採礦技術。
**如需詳細資訊,請參閱:**<資料採礦演算法 (Analysis Services - 資料採礦)>。
指定資料來源和案例索引鍵
接下來,選取 Cube 維度作為定義採礦結構的資料來源。然後,選取屬性作為採礦模型的索引鍵或案例索引鍵。
[!附註]
您正在建立的 OLAP 採礦模型和您用來建立模型的來源 Cube,必須包含在相同的 Analysis Services 資料庫中。
指定案例層級資料行和資料行使用方式
選取案例索引鍵之後,精靈下一頁的樹狀檢視中會顯示與該索引鍵相關聯的屬性和量值。從這個清單中,您可以選取屬性和量值作為結構的資料行。這些資料行稱為案例層級資料行。如同關聯式模型一樣,您也必須指定結構中如何使用每一個資料行,這可以在精靈的下一頁指定。資料行可以是索引鍵、輸入、可預測、輸入和可預測,或未選取的。
加入巢狀資料表
資料採礦精靈的 OLAP 分支包含選項,可以將巢狀資料表加入採礦模型結構中。在精靈的 [指定採礦模型資料行使用方式] 頁面上,按一下 [加入巢狀資料表],以開啟另一個對話方塊來逐步引導您加入巢狀資料表。只會顯示您套用至維度的量值群組。選取量值群組,此量值群組包含案例維度的外部索引鍵。接下來,指定量值群組中每一個資料行的使用方式,亦即輸入或可預測。然後,精靈會將巢狀資料表加入至案例資料表。巢狀資料表的預設名稱為巢狀維度的名稱,但您可以重新命名巢狀資料表和其資料行。**如需詳細資訊,請參閱:**<巢狀資料表 (Analysis Services - 資料採礦)>。
指定內容和資料類型
在選取一或多個可預測資料行和輸入資料行之後,您可以指定每一個資料行的內容和資料類型。
**如需詳細資訊,請參閱:**<資料類型 (資料採礦)>、<內容類型 (資料採礦)>。
配量來源 Cube
在精靈的 OLAP 分支中,您可以在培訓採礦模型之前先配量來源 Cube,以限制採礦模型的範圍。配量 Cube 類似在 SQL 陳述式中加入 WHERE 子句。例如,假設 Cube 包含有關產品購買的資訊,您可能會限制年齡屬性必須大於 30、性別資料行僅限女性,以及購買日期不得早於 2000 年三月。在此情況下,您可以將模型涵蓋的範圍限制為超過 30 歲且在 2000 年三月之後購買產品的女性。
將資料分割成培訓集和測試集
在您完成精靈之前的最後一個步驟是將 Cube 提供的資料分割成培訓集和測試集。資料分割的定義會與採礦結構儲存在一起,所以每當您根據結構建立新模型時,就可以使用測試資料集來評估模型的精確度。
**如需詳細資訊,請參閱:**<驗證資料採礦模型 (Analysis Services - 資料採礦)>、<將資料分割成培訓集和測試集 (Analysis Services - 資料採礦)>。
正在完成精靈
此精靈中的最後一個步驟為命名採礦結構和相關聯的採礦模型。如果您選取 [允許使用鑽研],就會在模型中啟用鑽研功能。如此可讓具有適當權限的使用者瀏覽用來建立此模型的來源資料。您也可以指定是否要將新的維度加入以採礦模型為基礎的來源 Cube 中,或從採礦模型建立新的 Cube。
**如需詳細資訊,請參閱:**<針對採礦模型和採礦結構使用鑽研 (Analysis Services - 資料採礦)>。
回到頁首