共用方式為


模糊合併

模糊合併 是智慧型手機數據準備功能,可用來在比較數據行時套用模糊比對演算法。 這些演算法會嘗試在合併的數據表中尋找相符專案。

您可以選取 [使用模糊比對來執行合併選項] 按鈕,以啟用 [合併] 對話框底部的模糊比對。 詳細資訊: 合併作業概觀

注意

只有文字數據行的合併作業才支援模糊比對。 Power Query 會使用 Jaccard 相似度演演算法來測量實例組之間的相似度。

範例案例

模糊比對的常見使用案例是使用手繪多邊形文字字段,例如在問卷中。 在本文中,範例數據表是直接從傳送到只有一個問題的在線問卷中取得: 您最愛的水果是什麼?

該問卷的結果如下圖所示。

使用原始項目進行問卷調查。

包含數據行分布圖表的範例問卷輸出數據表螢幕快照,其中顯示具有所有唯一答案的九個不同答案,以及具有所有錯字、複數或單數和案例問題的問卷答案。

這九筆記錄反映了調查提交。 調查提交的問題在於,有些有錯字,有些是複數,有些是單數,有些是大寫,有些是小寫。

為了協助標準化這些值,在此範例中,您有一個 Fruits 參考數據表。

水果參考數據表。

包含數據行分布圖表的 [水果參考] 數據表螢幕快照,其中顯示所有水果唯一的四個不同的水果,以及水果清單:蘋果、鳳梨、西瓜和香蕉。

注意

為了簡單起見,此 Fruits 參考數據表只包含此案例所需的水果名稱。 您的參考數據表可以有您所需的數據列數目。

目標是建立如下的數據表,其中您已將所有這些值標準化,以便執行更多分析。

問卷輸出數據表範例。

範例問卷輸出數據表的螢幕快照,其中含有數據行分布圖表的 [問題] 資料行。 圖表顯示具有所有唯一答案的九個相異答案。 問卷的答案包含所有錯字、複數或單數,以及案例問題。 輸出數據表也包含 Fruit 資料行。 此數據行包含數據行分布圖,其中顯示具有一個唯一答案的四個相異答案。 它也會列出所有正確拼字、單數和適當案例的水果。

模糊合併作業

若要進行模糊合併,請先執行合併。 在此情況下,您會使用 左方外部聯接,其中左數據表是問卷中的外部聯結,而右邊數據表是 [水果 ] 參考數據表。 在對話框底部,選取 [ 使用模糊比對來執行合併 ] 複選框。

[合併] 對話框的螢幕快照,其中顯示如何使用模糊比對來執行合併選項。

選取 [ 確定] 之後,您可以看到數據表中的新數據行,因為此合併作業。 如果您展開它,其中會有一個數據列沒有任何值。 這正是上一個影像中對話框訊息在顯示「選取範圍符合第一個數據表中 9 個數據列的 8 個」時所陳述的。

水果數據行中的模糊比對結果。

新增至 Survey 資料表之水果數據行的螢幕快照。 [問題] 數據行中的所有數據列都會展開,但數據列 9 除外,無法展開,而 Fruit 數據行包含 Null。

模糊比對選項

您可以修改 模糊比對選項 ,以調整應該如何完成近似比對。 首先,選取 [ 合併查詢] 命令,然後在 [合併 ] 對話框中,展開 [模糊比對選項]。

[合併] 對話框的螢幕快照,其中顯示模糊比對選項。

可用的選項如下:

  • 相似度臨界值(選擇性):介於 0.00 和 1.00 之間的值,可提供比對指定相似度分數以上記錄的能力。 1.00 的臨界值與指定完全相符準則相同。 例如,當臨界值設定為小於 0.90 時, Grapes 才會與 Graes 相符(遺漏字母 p)。 根據預設,此值會設定為0.80。
  • 忽略大小寫:無論文字大小寫為何,都允許比對記錄。
  • 結合文字元件來比對:允許合併文字元件來尋找相符專案。 例如,如果啟用此選項, Micro soft 會與 Microsoft 相符。
  • 顯示相似度分數:顯示輸入與模糊比對之後相符值之間的相似度分數
  • 相符項目數目(選擇性):指定每個輸入數據列可傳回的相符數據列數目上限。
  • 轉換資料表 (選擇性):允許根據自定義值對應比對記錄。 例如,如果提供的轉換數據表包含 Grapes,且 To 資料行包含 Raisins,則 Grapes 會與 Raisins 比對。

轉換數據表

針對本文中的範例,您可以使用轉換數據表來對應遺漏配對的值。 該值是 apls,其必須對應至 Apple。 您的轉換資料表有兩個資料列:

  • 包含要尋找的值。
  • 包含 值,這些值是用來取代使用 From 資料行找到的值。

在本文中,轉換數據表如下所示:

apls Apple

您可以回到 [合併] 對話框,然後在 [相符項目數目] 下的 [模糊比對選項] 中輸入 1。 啟用 [顯示相似度分數] 選項,然後在 [轉換數據表] 下,從下拉功能表中選取 [轉換數據表]。

[合併] 對話框的螢幕快照,其中已將相符項目數目設定為 1,並將 [轉換數據表] 設定為 [轉換數據表]。

選取 [ 確定] 之後,您可以移至合併步驟。 當您使用資料表值展開數據行時,除了 [水果 ] 欄位之外,您也會看到 [相似度分數] 字段。 選取兩者並展開它們,而不需新增前置詞。

[水果] 數據行 [展開] 對話框的螢幕快照,其中已選取 [水果] 和 [相似度分數] 字段。

展開這兩個字段之後,它們就會新增至您的數據表。 請記下您針對每個值的相似度分數取得的值。 如果需要,這些分數可協助您進行進一步的轉換,以判斷是否應該降低或提高相似度閾值。

模糊合併程式發生後數據表輸出的螢幕快照,其中顯示每個值的新 [水果] 和 [相似度分數] 字段。

在此範例中 ,相似度分數 只會做為其他資訊,而且在此查詢的輸出中不需要,因此您可以將其移除。 請注意範例從九個相異值開始的方式,但在模糊合併之後,只有四個相異值。

模糊合併問卷輸出數據表。

模糊合併問卷輸出數據表的螢幕快照,其中包含包含數據行分布圖的 [問題] 數據行,其中顯示具有所有唯一答案的九個不同答案,以及具有所有錯字、複數或單數和案例問題的問卷答案。 也包含具有數據行分布圖的 Fruit 數據行,其中顯示具有一個唯一答案的四個不同答案,並列出所有正確拼字、單數和適當大小寫的水果。

如需轉換數據表運作方式的詳細資訊,請移至 轉換數據表述詞