將採礦模型新增至結構 (Analysis Services - 數據採礦)
適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性。
採礦結構旨在支援多個採礦模型。 因此,完成精靈之後,您可以開啟 結構並新增採礦模型。 每次建立模型時,您都可以使用不同的演算法、變更參數,或套用篩選來使用不同的數據子集。
新增採礦模型
當您使用 [數據採礦精靈] 來建立新的採礦模型時,根據預設,您一律必須先建立採礦結構。 精靈接著會提供選項,讓您將初始採礦模型新增至 結構。 不過,您不需要立即建立模型。 如果您只建立 結構,就不需要決定要使用哪一個數據行做為可預測屬性,或如何使用特定模型中的數據。 相反地,您只需要設定未來要使用的一般數據結構,之後您就可以使用 數據採礦設計工具 來新增以 結構為基礎的新採礦模型。
注意
在 DMX 中,CREATE MINING MODEL 語句會從採礦模型開始。 也就是說,您可以定義採礦模型的選擇,而 SQL Server Analysis Services 會自動產生基礎結構。 稍後您可以使用 ALTER STRUCTURE,繼續將新的採礦模型新增至該結構...ADD MODEL 語句。
選擇演算法
當您將新模型新增至現有結構時,您應該做的第一件事是選取要在該模型中使用的數據採礦演算法。 選擇演算法很重要,因為每個演算法都會執行不同類型的分析,而且有不同的需求。
當您選取與數據不相容的演算法時,將會收到警告。 在某些情況下,您可能需要忽略演算法無法處理的數據行。 在其他情況下,演算法會自動為您進行調整。 例如,如果您的結構包含數值數據,而且演算法只能使用離散值,它會為您將數值分組為離散範圍。 在某些情況下,您可能需要先選擇索引鍵或選擇可預測的屬性,手動修正數據。
當您建立新模型時,不需要變更演算法。 通常,您可以使用相同的演算法來取得非常不同的結果,但篩選數據,或變更參數,例如叢集方法或最小專案集大小。 建議您試驗多個模型,以查看哪些參數會產生最佳結果。
請注意,您必須先處理所有新的模型,才能使用這些模型。
指定新採礦模型中數據行的使用方式
當您將新的採礦模型新增至現有的採礦結構時,您必須指定模型應該如何使用每個數據行。 根據您為模型選擇的演算法類型,預設可能會進行其中一些選擇。 如果您未指定數據行的使用類型,數據行將不會包含在採礦結構中。 不過,如果模型支持數據,數據行中的數據仍然可以用於鑽研。
模型所使用的採礦結構數據行(如果未設定為 Ignore)必須是索引鍵、輸入數據行、可預測數據行或可預測數據行,這些值也會當做模型的輸入使用。
索引鍵數據行包含數據表中每個數據列的唯一標識符。 某些採礦模型,例如以時序群集或時間序列演算法為基礎的採礦模型,可以包含多個索引鍵數據行。 不過,這些多個索引鍵不是關係型意義上的複合索引鍵,而是必須選取,才能支援時間序列和時序群集分析。
輸入數據行會提供預測的來源資訊。 [數據採礦精靈] 提供 [建議] 功能,當您選取可預測的數據行時,此功能就會啟用。 如果您按下此按鈕,精靈會取樣可預測的值,並判斷結構中哪些其他數據行有良好的變數。 它會拒絕索引鍵數據行或其他具有許多唯一值的數據行,並建議看似與結果相互關聯的數據行。
當數據集包含比您真正需要建置採礦模型更多的數據行時,這項功能特別方便。 Suggest 功能會計算數值分數,從 0 到 1,描述數據集中每個數據行與可預測數據行之間的關聯性。 根據此分數,此功能會建議數據行作為採礦模型的輸入。 如果您使用 建議 功能,您可以使用建議的數據行、修改選項以符合您的需求,或忽略建議。
可預測數據行包含您在採礦模型中嘗試預測的資訊。 您可以選取多個資料行作為可預測的屬性。 叢集模型是可預測屬性是選擇性的例外狀況。
根據模型類型,可預測的數據行可能必須是特定的數據類型:例如,線性回歸模型需要數值數據行做為預測值:貝氏機率分類演算法需要離散值(而且所有輸入也必須是離散的)。
指定資料行內容
對於某些資料行,您可能也需要指定 資料行內容。 在 SQL Server 數據採礦中,每個數據行的內容類型屬性會告訴演算法該數據行中的數據應該如何處理。 例如,如果您的數據具有 Income 資料行,您必須藉由將內容類型設定為 Continuous 來指定資料行包含連續數位。 不過,您也可以將內容類型設定為 Discretized,並選擇性地指定值區數目,以將 [收入] 資料行中的數位分組為貯體。 您可以建立以不同方式處理數據行的不同模型:例如,您可以嘗試將客戶貯體為三個年齡群組的模型,另一個模型會將客戶貯體為 10 個年齡群組。