建立關係型採礦結構
適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性。
大部分的數據採礦模型都是以關係型數據源為基礎。 建立關係型數據採礦模型的優點是您可以組合臨機操作數據,並定型和更新模型,而不需要建立 Cube 的複雜性。
關係型採礦結構可以從不同的來源繪製數據。 原始數據可以儲存在數據表、檔案或關係資料庫系統中,只要數據可以定義為數據源檢視的一部分。 例如,如果您的數據位於 Excel、SQL Server 數據倉儲或 SQL Server 報表資料庫,或是透過 OLE DB 或 ODBC 提供者存取的外部來源,則應該使用關係型採礦結構。
本主題提供如何使用數據採礦精靈建立關係型採礦結構的概觀。
建立關係型採礦結構的 程式
要求
首先,您必須有現有的數據源。 如果數據源設計工具尚未存在,您可以使用資料源設計工具來設定數據源。 如需詳細資訊,請參閱 建立資料來源 (SSAS 多維度)。
接下來,使用 [數據源檢視精靈] 將所需的數據組合成單一數據源檢視。 如需如何使用資料源檢視來選取、轉換、篩選或管理資料的詳細資訊,請參閱多維度模型中 資料源檢視。
程式概觀
在 [方案總管] 中,以滑鼠右鍵按兩下 [採礦結構] 節點,然後選取 [[新增採礦結構]來啟動 [數據採礦精靈]。 精靈會引導您完成下列步驟,以建立新關係型採礦模型的結構:
選取定義方法:您在這裡選取資料來源類型,然後選擇 [從關係資料庫或數據倉儲 。
建立數據採礦結構:判斷您要只建置結構,還是使用採礦模型建置結構。
您也可以為初始模型選擇適當的演算法。 如需哪些演算法最適合特定工作的指引,請參閱 數據採礦演算法(Analysis Services - 資料採礦)。
選取數據源檢視:選擇要在定型模型中使用的數據源檢視。 數據源檢視也可以包含用於測試或不相關的數據。 您可以挑選並選擇結構與模型中實際使用的資料。 您也可以稍後將篩選套用至數據。
指定數據表類型:選取包含分析案例的數據表。 對於某些數據集,特別是用於建置購物籃模型的數據集,您可能也會包含相關數據表,以做為巢狀數據表。
針對每個數據表,您必須指定索引鍵,讓演算法知道如何識別唯一記錄,以及如果您已加入巢狀數據表,則相關的記錄。
如需詳細資訊,請參閱 採礦結構資料行。
指定定型資料:在此頁面上,您可以選擇作為 案例數據表,這是包含最重要的分析數據的數據表。
對於某些數據集,特別是用於建置購物籃模型的數據集,您可能也會包含相關的數據表。 該巢狀數據表中的值會當做與主數據表中單一數據列(或大小寫)相關的多個值來處理。
指定資料行內容和資料類型:針對您在 結構中使用的每一個數據行,您必須同時選擇 資料類型 和 內容類型。
精靈會自動偵測可能的數據類型,但您不需要使用精靈建議的數據類型。 例如,即使您的數據包含數位,它們也可能代表類別數據。 您指定為索引鍵的數據行會自動為該特定模型類型指派正確的數據類型。 如需詳細資訊,請參閱 採礦模型數據行 和 資料類型(資料採礦)。
內容類型 您為模型中使用的每一個數據行選擇,會告知演算法應該如何處理數據。
例如,您可能會決定離散化數位,而不是使用連續值。 您也可以要求演算法自動偵測資料列的最佳內容類型。 如需詳細資訊,請參閱 內容類型(資料採礦)。
建立測試集:在此頁面上,您可以告訴精靈應該保留多少數據以供測試模型使用。 如果您的數據支援多個模型,最好建立鑒效組數據集,讓所有模型都可以在相同的數據上進行測試。
如需詳細資訊,請參閱 測試和驗證 (資料採礦)。
完成精靈:在此頁面上,您會為新的採礦結構和相關聯的採礦模型命名,並儲存結構和模型。
您也可以根據模型類型來設定一些重要的選項。 例如,您可以在 結構上啟用鑽研。
此時,採礦結構和其模型只是元數據;您必須處理這兩者以取得結果。
如何選擇關係型數據
關係型採礦結構可以根據透過 OLE DB 數據源提供的任何數據。 如果源數據包含在多個數據表內,您可以使用數據源檢視來組合您需要一個位置的數據表和數據行。
例如,如果數據表包含任何一對多關聯性,則每個想要分析的客戶都有多個購買記錄,您可以新增這兩個數據表,然後使用一個數據表做為案例數據表,將關聯性多端的數據連結為巢狀數據表。
採礦結構中的數據衍生自現有數據源檢視中的任何專案。 您可以在數據源檢視內視內修改數據,新增可能不存在於基礎關係型數據中的關聯性或衍生數據行。 您也可以在數據源檢視內建立具名計算或匯總。 如果您無法控制數據源中的數據排列,或是想要針對數據採礦模型試驗不同的數據匯總,這些功能就非常實用。
您不需要使用所有可用的數據;您可以選擇要在採礦結構中包含哪些資料行。 根據該結構的所有模型都可以使用這些數據行,或者您可以將特定數據行標示為 忽略特定模型的。 您可以讓數據採礦模型的使用者從採礦模型的結果向下切入,以查看採礦模型本身未包含的其他採礦結構數據行。
如何指定內容類型和數據類型
數據類型與您在 SQL Server 或其他應用程式介面中指定的數據類型幾乎相同:日期和時間、不同大小的數目、布爾值、文字和其他離散數據。
不過,內容類型對於數據採礦很重要,而且會影響分析的結果。 內容類型會告知演算法應該如何處理數據:應該以連續小數位數或量化數位? 有多少潛在值? 每個值是否相異? 如果值是索引鍵,其類型為哪一種索引鍵 - 它是否表示日期/時間值、序列或某種其他類型的索引鍵?
請注意,數據類型的選擇可以限制您選擇的內容類型。 例如,您無法將非數值的值離散化。 如果您看不到您想要的內容類型,您可以按兩下 [返回] 傳回資料類型頁面,然後嘗試不同的資料類型。
您不需要太擔心內容類型錯誤。 只要採礦結構中數據集支援新的內容類型,建立新的模型並變更模型內的內容類型就很容易。 使用不同的內容類型來建立多個模型也非常常見,無論是作為實驗,還是滿足不同演算法的需求。
例如,如果您的數據包含收入數據行,您可以在使用Microsoft判定樹演算法時建立兩個不同的模型,並將數據行設定為連續數位或離散範圍。 不過,如果您使用 Microsoft貝氏機率演算法新增模型,您將被迫只將數據行變更為離散化值,因為該演算法不支援連續數位。
為何以及如何將數據分割成定型和測試集
在精靈結尾附近,您必須決定是否將數據分割成定型和測試集。 布建隨機取樣部分數據以進行測試的功能非常方便,因為它可確保一組一致的測試數據可用於與新採礦結構相關聯的所有採礦模型搭配使用。
警告
請注意,此選項不適用於所有模型類型。 例如,如果您建立預測模型,您將無法使用鑒效組,因為時間序列演算法要求數據中沒有任何間距。 如需支援鑒效組資料集的模型類型清單,請參閱 定型及測試資料集。
若要建立此鑒效組數據集,您可以指定要用於測試的數據百分比。 所有剩餘的數據都會用於定型。 您可以選擇性地設定用於測試的案例數目上限,或設定要用於開始隨機選取程式的種子值。
鑒效組測試集的定義會與採礦結構一起儲存,因此每當您根據 結構建立新的模型時,測試數據集將可用於評估模型的精確度。 如果您刪除採礦結構的快取,則會刪除用於定型的案例相關信息,以及用於測試的資訊。
為何及如何啟用鑽研
幾乎在精靈結尾處,您可以選擇啟用 鑽研。 很容易錯過這個選項,但這是一個重要的選項。 鑽研可讓您藉由查詢採礦模型來檢視採礦結構中的源數據。
為什麼這很有用? 假設您正在檢視叢集模型的結果,並想要查看已放入特定叢集的客戶。 您可以使用鑽研來檢視詳細數據,例如連絡資訊。
警告
若要使用鑽研,您必須在建立採礦結構時啟用它。 您可以稍後在模型上設定 屬性,以在模型上啟用鑽研,但採礦結構需要在開頭設定這個選項。 如需詳細資訊,請參閱 鑽研查詢 (資料採礦)。
另請參閱
數據採礦設計工具
數據採礦精靈 (Analysis Services - 數據採礦)
採礦模型屬性
採礦結構和結構數據行的 屬性
採礦結構工作和操作說明