建立比對原則
適用於:SQL Server
此主題說明如何在 Data Quality Services (DQS) 的知識庫內建立比對原則。 您會針對取樣資料執行 [比對原則] 活動,以便在 DQS 中預備比對程序。 在這個活動中,您會在原則中建立及測試一個或多個比對規則,然後發行知識庫,定期讓比對規則可供公開使用。 知識庫中只能有一個比對原則,但是該原則可以包含多個比對規則。
比對原則建立作業會在三個階段執行:識別資料來源並將定義域對應至資料行的對應程序、建立一個或多個比對規則並個別測試每一個比對規則的比對原則程序,以及一起執行所有比對規則,並在滿意這些規則的情況下將此原則加入至知識庫的比對結果程序。 以上每一個程序都是在比對原則活動精靈的個別頁面中執行,好讓您來回移到不同的頁面、重新執行此程序,並退出特定比對原則程序,然後返回該程序的相同階段。 在一起測試所有規則之後,您可以視需要返回 [比對原則] 頁面、調整個別規則、再次個別測試規則,然後返回 [比對結果] 頁面,再次一起執行所有規則。 DQS 會提供有關來源資料、比對規則和比對結果的統計資料,以便您做出有關比對原則的明智決定,好讓您精簡此原則。
開始之前
必要條件
如果來源資料為 Excel 檔案,則必須在 Data Quality Client 電腦上安裝 Microsoft Excel。 否則,您將無法在對應階段選取此 Excel 檔案。 由 Microsoft Excel 建立的檔案可以具有 .xlsx、.xls 或 .csv 的副檔名。 如果使用 64 位元版本的 Excel,則僅支援 Excel 2003 檔案 (.xls);Excel 2007 或 2010 檔案 (.xlsx) 不受支援。 如果您使用 64 位元版本的 Excel 2007 或 2010,請將檔案儲存為 .xls 檔案或 .csv 檔案,或是改為安裝 32 位元版本的 Excel。
安全性
權限
您必須擁有 DQS_MAIN 資料庫的 dqs_kb_editor 角色或 dqs_administrator 角色,才能建立比對原則。
如何設定比對規則參數
建立比對規則是一種反覆程序,您會在此程序中輸入用來判斷某一筆記錄是否符合另一筆記錄的因數。 您可以在資料表中輸入任何定義域的條件。 當 DQS 執行兩筆記錄的比對時,它會比較欄位中對應至定義域的值 (這些定義域包含在比對規則中)。 DQS 會分析規則中每一個欄位的值,然後將此規則中輸入的因數用於每一個定義域,以計算最終的符合分數。 如果相比較之兩筆記錄的符合分數大於最低符合分數,則會將兩個欄位視為相符。
您在比對規則中輸入的因數包括以下項目:
加權:針對規則中的每一個定義域,輸入數值加權來判斷此定義域的比對分析如何與規則中每一個其他定義域的比對分析相比較。 此加權指示此欄位的分數佔兩筆記錄之間之整體符合分數的比重。 計算所得並指派給每一個來源欄位的分數會加總在一起,以構成兩筆記錄的複合符合分數。 請針對不是必要條件的每一個欄位 (相似度為精確或類似),設定介於 10 與 100 之間的加權。 不是必要條件之定義域的加權總和必須等於 100。 如果此值為必要條件,加權會設定為 0 且無法變更。
精確相似度:如果兩筆不同記錄之相同欄位的值必須相同,這樣這些值才會被視為相符的話,請選取 [精確] 。 如果相同的話,該定義域的符合分數將會設定為 "100",而且 DQS 會在規則中使用該分數與其他定義域的分數,以判斷彙總符合分數。 如果不相同的話,該定義域的符合分數將會設定為 "0",而且規則的處理作業將會繼續前往下一個條件。 如果您為數值定義域設定比對規則,並選取 [類似],您可以輸入百分比或整數形式的容錯值。 如果是日期類型的定義域,您可以在選取 [類似]時輸入日、月或年 (整數) 形式的容錯值;日期定義域沒有百分比容錯值。 如果您選取 [精確],就沒有這個選項。
類似相似度:如果兩筆不同記錄之相同欄位的兩個值即使不相同,也可以被視為相符的話,請選取 [類似] 。 當 DQS 執行規則時,它會計算該定義域的符合分數,而且會在規則中使用該分數與其他定義域的分數,以判斷彙總符合分數。 欄位值之間的最低相似度為 60%。 如果針對兩筆記錄的欄位計算的符合分數小於 60,則相似度分數會自動設定為 0。 如果您為數值欄位設定比對規則,並選取 [類似],您可以輸入百分比或整數形式的容錯值。 如果您為日期欄位設定比對規則,並選取 [類似],您可以輸入數值容錯值。
必要條件:選取 [必要條件] 可指定兩筆不同記錄之相同欄位中的值必須傳回 100% 相符,否則這些記錄不會被視為相符,而且會忽略規則中的其他子句。 當選取 [必要條件] 時,將會移除定義域的加權欄位,讓您無法為此定義域定義加權。 您必須重設一個或多個定義域加權,好讓加權總和等於 100。 必要條件定義域不會構成記錄符合分數。 決定記錄符合分數的方式是比較 [相似度] 設定為 [類似] 或 [精確] 之欄位中的值。 當您將某個欄位變成必要條件時,該定義域的 [相似度] 會自動設定為 [精確]。
最低符合分數是兩筆記錄被視為相符的最低臨界值 (記錄的狀態會設定為「符合」)。 以 "1" 為增量來輸入整數值,或是按一下向上或向下箭號,以 "10" 為增量來增加或減少值。 最小值為 80。 如果符合分數低於 80,則兩筆記錄不視為相符。 您不能在這個頁面中變更最低符合分數的範圍。 最低的最小符合分數為 80。 但是,您可以在管理頁面中變更最低符合分數 (如果您是 DQS 管理員)。
建立比對規則是一種反覆程序,因為您可能需要在規則中變更網域的相對加權,或是網域的相似度或必要條件屬性,或是規則的最低符合分數,才能達到所需的結果。 您可能也會發現需要建立多個規則,而且將執行每一個規則來建立符合分數。 只使用一個規則可能很難達到您所需的結果。 多個規則將會提供所需之相符項目的不同觀點。 有了多個規則,您或許可以在每一個規則中併入更少的定義域、針對每一個定義域使用更高的加權,並達成更好的結果。 如果資料比較不精確也比較不完整,您可能需要更多的規則,才能找到所需的相符項目。 如果資料比較精確和完整,您需要的規則就比較少。
分析會提供完整性和獨特性的洞察能力。 請一起考量完整性和獨特性。 使用完整性和獨特性資料可判斷哪一個加權要在比對程序中提供欄位。 如果欄位的獨特性很高,使用比對原則中的欄位可減少比對結果,所以您可能會想要將該欄位的加權設定為相對較小的值。 如果資料行的獨特性很低且完整性也很低,您可能不想要包含該資料行的定義域。 如果獨特性很低但是完整性很高,您可能會想要包含定義域。 某些資料行 (例如性別) 可能自然擁有較低的獨特性。 如需詳細資訊,請參閱 分析工具和結果索引標籤。
第一步:啟動比對原則
您會在 Data Quality Client 應用程式的知識庫管理區域中執行比對原則活動。
啟動 Data Quality Client。 如需此做法的詳細資訊,請參閱執行 Data Quality Client 應用程式。
在 Data Quality Client 首頁畫面中,按一下 [新增知識庫],在新的知識庫中建立比對原則。 輸入知識庫的名稱和描述,並視需要設定 [建立知識庫來源] 。 為此活動按一下 [比對原則] 。 按 [下一步] 繼續進行。
按一下 [開啟知識庫] ,在現有的知識庫中建立或修改比對原則。 選取知識庫,並選取 [比對原則],然後按 [下一步]。 您也可以按一下 [最近使用的知識庫]底下的知識庫。 如果您開啟已關閉的知識庫,而且正在處理比對原則,您將會進入比對原則活動已關閉的階段 (如同知識庫資料表中知識庫的 [狀態] 資料行或 [最近使用的知識庫]底下的知識庫名稱所指示)。 如果您開啟的知識庫包含比對原則而且已完成,您將會前往 [比對原則] 頁面。 如果您開啟的知識庫不包含比對原則而且已完成,您將會前往 [對應] 頁面。
對應階段
在對應階段中,您會識別建立比對原則所針對的資料來源,而且您會將來源資料行對應至定義域,好讓定義域可供比對原則活動使用。
在 [對應] 頁面上,若要針對資料庫建立原則,請將 [資料來源] 保留為 [SQL Server],並在 [資料庫]中選取建立原則所針對的資料庫,然後在 [資料表/檢視表]中選取資料表或檢視表。 來源資料庫必須與 Data Quality Server 位於相同的 SQL Server 執行個體。 否則不會出現在下拉式清單中。
若要針對 Excel 試算表中的資料建立原則,請針對 [資料來源] 選取 [Excel 檔案]、按一下 [瀏覽] 及選取 Excel 檔案,並在適當情況下保留選取 [使用第一個資料列做為標頭] 。 在 [工作表]中,選取將會是資料來源之 Excel 檔案中的工作表。 Data Quality Client 電腦上必須安裝 Microsoft Excel,才能選取 Excel 檔案。 否則,將無法使用 [瀏覽] 按鈕,而且這個文字方塊下方會通知您尚未安裝 Microsoft Excel。
在 [對應]底下,針對 [來源資料行]選取欄位,然後按一下 [建立定義域] 圖示。
在 [對應]底下,針對 [來源資料行]選取資料來源中的欄位,然後選取對應的定義域。 針對您在比對程序中使用的所有定義域重複以上步驟。 視需要按一下 [建立定義域] 或 [建立複合定義域]來建立定義域。
注意
只有當 DQS 支援來源資料類型,而且該類型符合 DQS 定義域資料類型時,您才能將來源資料對應至 DQS 定義域,同時建立比對原則。 如需有關 DQS 支援之資料類型的詳細資訊,請參閱< DQS 定義域支援的 SQL Server 和 SSIS 資料類型>。
按一下 [加號 (+)] 控制項,將資料列加入至對應資料表,或按一下 [減號 (-)] 控制項,移除資料列。
按一下 [預覽資料來源] 查看您選取之 SQL Server 資料表或檢視表中的資料,或者您選取的 Excel 工作表。
按一下 [檢視/選取複合定義域] 檢視知識庫中可用的複合定義域清單,並依適當的情況選取來進行對應。
按 [下一步] 繼續前往比對原則階段。
注意
按一下 [關閉] ,儲存比對專案的階段,並返回 DQS 首頁。 下一次開啟此專案時,就會從相同階段開始。 按一下 [取消] ,結束比對活動,不儲存工作並返回 DQS 首頁。
比對原則階段
您會在 [比對原則] 頁面建立比對規則,並個別加以測試。 當您在 [比對原則] 頁面上測試比對規則時,您會看到比對結果資料表,其中顯示 DQS 為選取的規則所識別的叢集。 此資料表會顯示叢集中的每一筆記錄,包括對應定義域值和符合分數以及叢集的初始樞紐記錄。 您也可以顯示整體比對程序的分析資料、每一個比對規則中的條件,以及個別顯示每一個比對規則之結果的統計資料。 您可以篩選您想要的主要規則資料。
如需有關比對規則之運作方式的詳細資訊,請參閱< 如何設定比對規則參數。
在 [比對原則] 頁面上,按一下 [建立比對規則] 圖示。
輸入此規則的名稱及描述。
如果您想要讓比對規定更嚴格,請增加 [最小符合分數] 的值。 如需有關最小符合分數的詳細資訊,請參閱< 如何設定比對規則參數。
按一下 [加入新的定義域項目] 圖示。
選取輸入規則值所針對的定義域或複合定義域。
注意
只有當複合定義域中的每一個單一定義域都已經對應至來源資料行時,才可以選取複合定義域。
如果兩筆不同記錄之相同欄位的兩個值即使不相同,也可以被視為相符的話,請針對 [相似度]選取 [類似] 。 如果兩筆不同記錄之相同欄位的兩個值必須相同才會被視為相符的話,請選取 [精確] (如需相關資訊,請參閱 如何設定比對規則參數)。
針對 [加權]輸入值,此值可決定定義域的符合分數佔兩筆記錄之整體符合分數的比重。
注意
當您為複合定義域定義加權時,您可以針對複合定義域中的每一個單一定義域輸入不同的加權 (此時不會針對複合定義域提供個別加權),或者您可以為複合定義域輸入單一加權 (此時不會針對複合定義域中的單一定義域提供個別加權)。
選取 [必要條件] 可指定兩筆記錄之欄位中的值必須傳回 100% 相符,否則這些記錄不會被視為相符,而且會忽略規則中的其他子句。 如果 [相似度] 為 [類似],它將會變更為 [精確],而且將會移除加權,因為相符項目必須是 100%。
針對將屬於比對規則之一部分的所有其他定義域重複步驟 4 到 8。 請確定此規則中所有定義域的加權總和等於 100。
從下拉式清單中選取 [重疊的叢集] ,以便在執行比對時顯示所有叢集的樞紐記錄和隨後的記錄,即使叢集的群組有共同的記錄亦然。 選取 [非重疊的叢集] ,在執行比對時顯示與單一叢集擁有共同記錄的叢集。
按一下 [從來源重新載入資料] ,在您執行比對原則時,將資料來源中的資料複製到暫存資料表,並為資料重新建立索引。 按一下 [在先前的資料上執行] 執行比對原則,而不將資料複製到暫存資料表,也不重新建立資料的索引。 當您初次執行比對原則,或是您在[對應] 頁面中變更對應,然後在隨後的快顯視窗中按一下 [是] 時, [在先前的資料上執行] 將會停用。 在這兩種情況下,您都必須重新建立索引。 如果比對原則尚未變更,就不需要重新建立索引。 針對之前的資料執行有助於提高效能。
按一下 [啟動] ,針對選取的規則執行比對程序。 當此程序完成時,資料表會針對叢集中的每一筆記錄顯示記錄識別碼、叢集號碼和資料行 (包括不在比對規則中的資料行)。 叢集中的樞紐資料列會被視為在刪除重複程序中存活的主要候選項。 叢集中的每一個額外資料列都被視為重複項目,結果資料表中會提供其符合分數 (相較於樞紐記錄)。 叢集號碼與叢集中樞紐記錄的記錄識別碼相同。
您可以使用 [比對結果] 資料表中的資料,如下所示:
在 [篩選]中選取 [相符項] ,以顯示所有相符的資料列以及其分數。 比對結果資料表中不會顯示不視為相符的資料列 (其符合分數小於最低符合分數)。 選取 [不符] 顯示所有不符的資料列,而不是相符的資料列。
在 [百分比]下拉式方塊的下拉式清單中,選取百分比 (以 "5" 為增量)。 符合分數大於或等於該百分比的所有資料列都將顯示在比對結果資料表中。
如果您在比對結果資料表中按兩下記錄,DQS 會顯示 [符合分數詳細資料] 快顯視窗,該視窗會顯示樞紐記錄和來源記錄 (以及其所有欄位中的值)、兩者之間的分數,以及記錄比對的向下鑽研。 向下鑽研會顯示樞紐記錄和來源記錄之每一個欄位中的值,好讓您可以比較這些值,並顯示每一個欄位的符合分數佔兩筆記錄之整體符合分數的比重。
請在 [分析工具] 和 [比對結果] 索引標籤中檢視統計資料,以確保您會達成所需的結果。 如需詳細資訊,請參閱 分析工具和結果索引標籤。
如果規則需要變更,請在規則編輯器中進行變更,然後按一下 [重新啟動]。
注意
初次分析完成後, [啟動] 按鈕將變為 [重新啟動] 按鈕。 如果上一次分析的結果尚未儲存,按一下 [重新啟動] 將會遺失之前的資料。 執行分析時請勿離開頁面,否則分析程序將會終止。
[比對結果] 索引標籤會顯示前二次執行規則的統計資料。 如果您使用不同的設定執行比對規則一次以上,請比較目前規則與上一個規則的統計資料。 如果您發現上一個規則的結果比較好,請按一下 [還原之前的規則] 還原上一個規則的條件,將規則還原成編輯之前的狀態。 目前的規則條件將會遺失。 如此可讓您根據前兩次執行的比對微調原則,以減少您花在微調比對原則上的時間。
如果您想要將另一個規則加入至比對原則,請從步驟 1 開始重複執行。
按 [下一步] 繼續前往比對結果階段。
比對結果階段
您會立即在 [比對結果] 頁面中測試所有比對規則。 在您這樣做之前,您可以指定規則測試回合會識別重疊或非重疊的叢集。 如果您執行規則多次,您可以針對從來源重新載入的資料或之前的資料執行此規則。
當您在 [比對結果] 頁面上測試比對規則時,您會看到比對結果資料表,其中顯示 DQS 為所有規則所識別的叢集。 此資料表會顯示叢集中的每一筆記錄,包括對應定義域值和符合分數以及叢集的初始樞紐記錄。 您也可以顯示整體比對規則的分析資料、每一個比對規則中的條件,以及所有比對規則之結果的統計資料。
在 [比對結果] 頁面上,從下拉式清單中選取 [重疊的叢集] ,以便在執行比對時顯示所有叢集的樞紐記錄和隨後的記錄,即使叢集的群組有共同的記錄亦然。 選取 [非重疊的叢集] ,在執行比對時顯示與單一叢集擁有共同記錄的叢集。
按一下 [從來源重新載入資料] ,在您執行比對原則時,將資料來源中的資料複製到暫存資料表,並為資料重新建立索引。 按一下 [在先前的資料上執行] 執行比對原則,而不將資料複製到暫存資料表,也不重新建立資料的索引。 當您初次執行比對原則,或是您在[對應] 頁面中變更對應,然後在隨後的快顯視窗中按一下 [是] 時, [在先前的資料上執行] 將會停用。 在這兩種情況下,您都必須重新建立索引。 如果比對原則尚未變更,就不需要重新建立索引。 針對之前的資料執行有助於提高效能。
按一下 [啟動] ,針對您已定義的所有規則執行比對程序。 [比對結果] 資料表會針對叢集中的每一筆記錄顯示記錄識別碼、叢集號碼和資料行 (包括不在比對規則中的資料行)。 叢集中的前置記錄是隨機選取的 (當執行符合的專案時,可透過在 [匯出] 頁面選取生存規則來判斷存留記錄。) 叢集中的每一個額外資料列都被視為重複項目,結果資料表中會提供其符合分數 (相較於樞紐記錄)。
您可以使用 [比對結果] 資料表中的資料,如下所示:
在 [篩選]中選取 [相符項] ,以顯示所有相符的資料列以及其分數。 比對結果資料表中不會顯示不視為相符的資料列 (其符合分數小於最低符合分數)。 選取 [不符] 顯示所有不符的資料列,而不是相符的資料列。
在 [百分比]下拉式方塊的下拉式清單中,選取百分比 (以 "5" 為增量)。 符合分數大於或等於該百分比的所有資料列都將顯示在比對結果資料表中。
如果您在比對結果資料表中按兩下記錄,DQS 會顯示 [符合分數詳細資料] 快顯視窗,該視窗會顯示樞紐記錄和來源記錄 (以及其所有欄位中的值)、兩者之間的分數,以及記錄比對的向下鑽研。 向下鑽研會顯示樞紐記錄和來源記錄之每一個欄位中的值,好讓您可以比較這些值,並顯示每一個欄位的符合分數佔兩筆記錄之整體符合分數的比重。
請在 [分析工具] 和 [比對結果] 索引標籤中檢視統計資料,以確保您會達成所需的結果。 按一下 [比對規則] 索引標籤,以查看每一個規則的定義域設定為何。 如需詳細資訊,請參閱 分析工具和結果索引標籤。
如果您對所有規則的結果不滿意,請按一下 [上一步] 返回 [比對原則] 頁面、視需要修改一個或多個規則、返回 [比對結果] 頁面,然後按一下 [重新啟動]。
注意
分析完成後, [啟動] 按鈕將變為 [重新啟動] 按鈕。 如果上一次分析的結果尚未儲存,按一下 [重新啟動] 將會遺失之前的資料。
如果您對所有規則的結果感到滿意,請按一下 [完成] 完成比對原則程序,然後按一下下列其中一項:
是 - 發行知識庫並結束:將會發行知識庫,供目前使用者或其他使用者使用。 知識庫不會鎖定,知識庫狀態 (在知識庫資料表中) 將會設為空白,而且定義域管理和知識探索活動可供使用。 您會返回 [開啟知識庫] 畫面。
否 - 儲存知識庫工作並結束:將會儲存您的工作,知識庫會保持鎖定,而且知識庫狀態將會設為 [工作中]。 定義域管理和知識探索活動都可供使用。 您會返回首頁。
取消 - 留在目前畫面:快顯視窗將會關閉,而且您會返回 [定義域管理] 畫面。
按一下 [關閉] 儲存工作,並返回 DQS 首頁。 知識庫的狀態將會顯示「比對原則 -」字串和目前的狀態。 如果當您在 [比對結果] 畫面中時按一下 [關閉] ,狀態將會顯示「比對原則 - 結果」。 如果當您在 [比對原則] 畫面中時按一下 [關閉],狀態將會顯示「比對原則 - 比對原則」。 在按一下 [關閉]之後,若要執行 [知識探索] 活動,您必須返回 [比對原則] 活動,按一下 [完成],然後按一下 [是] 發行知識庫,或按一下 [否] 儲存知識庫工作並結束。
注意
如果當您在執行比對程序時按一下 [關閉] ,比對程序在您按一下 [關閉]時將不會終止。 您可以重新開啟知識庫,並查看此程序是否依然執行或已完成,以及是否顯示結果。 如果此程序尚未完成,畫面將會顯示進度。
按一下 [取消] ,結束 [比對原則] 活動,不儲存工作並返回 DQS 首頁。
後續操作:在建立比對原則之後
在您建立比對原則之後,您可以根據包含此比對原則的知識庫來執行比對專案。 如需詳細資訊,請參閱 執行比對專案。
Profiler and Results Tabs
[分析工具] 和 [結果] 索引標籤包含 [比對原則] 和 [比對結果] 頁面的統計資料。
分析工具索引標籤
按一下 [分析工具] 索引標籤,顯示來源資料庫及原則規則內所包含之每一個欄位的統計資料。 在執行原則規則時,將會更新統計資料。
如需有關如何解譯下列統計資料的詳細資訊,請參閱< 如何設定比對規則參數>。
來源資料庫統計資料包含下列幾種:
記錄:來源資料庫中的記錄總數
總計值:資料來源之欄位中的值總數
新值:上次執行之後所新增之值的總數以及這些值佔整體的百分比
唯一值:欄位中唯一值的總數以及這些值佔整體的百分比
新的唯一值:欄位中新增之唯一值的總數以及這些值佔整體的百分比
欄位統計資料包括以下項目:
欄位名稱
網域名稱
新增:新值的數目以及新的值相較於定義域中現有值的百分比
唯一:欄位中唯一記錄的數目以及其總計百分比
完整性:針對比對工作所對應之每一個來源欄位的完整性
比對原則通知
如果是比對原則活動,以下情況會產生通知:
此欄位在所有記錄中都是空的,建議您從對應中將它消除。
欄位完整性分數非常低,您可能會想要從對應中將它消除。
欄位中的所有值都無效;您應該驗證對應以及定義域規則與欄位內容的相關性。
欄位中有效值的數目不多;您應該驗證對應以及定義域規則與欄位內容的相關性。
此欄位中的唯一性層級很高。 在比對原則中使用這個欄位會減少比對結果。
比對結果索引標籤
按一下 [比對結果] 索引標籤,顯示比對原則規則執行及上一次規則執行的統計資料。 如果您使用不同的參數執行相同規則一次以上,比對結果資料表將會顯示這兩次執行的統計資料,好讓您進行比較。 如果您要的話,也可以還原上一個規則。
這些統計資料包括以下各項:
資料庫中的記錄總數
資料庫中相符記錄的總數
資料庫中不被視為重複項目的記錄數目
探索的叢集數目
平均叢集大小 (重複記錄數目除以叢集數目)
叢集中最少的重複項目數
叢集中最多的重複項目數