แชร์ผ่าน


การผสาน Fuzzy

การรวม Fuzzy เป็นคุณลักษณะการเตรียมข้อมูลอัจฉริยะที่คุณสามารถใช้เพื่อใช้อัลกอริทึมการจับคู่ที่ไม่น่าเบื่อเมื่อเปรียบเทียบคอลัมน์ อัลกอริทึมเหล่านี้พยายามค้นหารายการที่ตรงกันในตารางที่กําลังผสาน

คุณสามารถเปิดใช้งานการจับคู่แบบไม่น่าเบื่อที่ด้านล่างของกล่องโต้ตอบ ผสาน ด้วยการเลือก ใช้การจับคู่แบบไม่เป็นทางการเพื่อดําเนินการผสานปุ่มตัวเลือก ข้อมูลเพิ่มเติม:ภาพรวมการดําเนินการผสาน

โน้ต

การจับคู่แบบไม่เป็นทางการรองรับเฉพาะการดําเนินการผสานบนคอลัมน์ข้อความเท่านั้น Power Query ใช้อัลกอริทึมความคล้ายคลึงกันของ Jaccard เพื่อวัดความคล้ายคลึงกันระหว่างคู่ของอินสแตนซ์

สถานการณ์ตัวอย่าง

กรณีการใช้งานทั่วไปสําหรับการจับคู่แบบไม่เป็นทางการคือกับเขตข้อมูลข้อความรูปแบบอิสระ เช่น ในแบบสํารวจ สําหรับบทความนี้ ตารางตัวอย่างถูกนํามาโดยตรงจากแบบสํารวจออนไลน์ที่ส่งไปยังกลุ่มที่มีคําถามเดียวเท่านั้น: ผลไม้ที่คุณชื่นชอบคืออะไร

ผลลัพธ์ของแบบสํารวจนั้นจะแสดงในรูปต่อไปนี้

สํารวจตัวอย่างพร้อมรายการดิบ

สกรีนช็อตของตารางผลลัพธ์แบบสํารวจตัวอย่างที่มีกราฟการกระจายคอลัมน์ที่แสดงคําตอบที่แตกต่างกันเก้าคําตอบพร้อมคําตอบที่ไม่ซ้ํากันทั้งหมดและคําตอบสําหรับแบบสํารวจด้วยการพิมพ์ผิดพหูพจน์หรือเอกพจน์และปัญหากรณีทั้งหมด

ระเบียนเก้ารายการสะท้อนถึงการส่งแบบสํารวจ ปัญหาเกี่ยวกับการส่งแบบสํารวจคือบางปัญหามีการพิมพ์ผิด บางอย่างเป็นพหูพจน์ บางส่วนเป็นเอกพจน์ บางส่วนเป็นตัวพิมพ์ใหญ่ และบางส่วนเป็นตัวพิมพ์เล็ก

เพื่อช่วยสร้างมาตรฐานค่าเหล่านี้ ในตัวอย่างนี้คุณมีตารางอ้างอิง Fruits อ้างอิง

ตารางอ้างอิงผลไม้

สกรีนช็อตของตารางอ้างอิงผลไม้ที่มีกราฟการกระจายคอลัมน์แสดงผลไม้ที่แตกต่างกันสี่ชนิดโดยมีผลไม้ไม่ซ้ํากันและรายการของผลไม้: แอปเปิ้ล, สับปะรด, แตงโมและกล้วย

โน้ต

เพื่อความง่าย ตารางอ้างอิง Fruits นี้มีชื่อของผลไม้ที่จําเป็นสําหรับสถานการณ์นี้เท่านั้น ตารางอ้างอิงของคุณสามารถมีแถวได้มากเท่าที่คุณต้องการ

เป้าหมายคือการสร้างตารางดังต่อไปนี้ ซึ่งคุณได้กําหนดมาตรฐานค่าเหล่านี้ทั้งหมดเพื่อให้คุณทําการวิเคราะห์ได้มากขึ้น

ตารางผลลัพธ์แบบสํารวจตัวอย่าง

สกรีนช็อตของตารางผลลัพธ์แบบสํารวจตัวอย่างที่มีคอลัมน์คําถามที่มีกราฟการกระจายคอลัมน์ กราฟแสดงคําตอบที่แตกต่างกันเก้าคําตอบพร้อมคําตอบที่ไม่ซ้ํากันทั้งหมด คําตอบของแบบสํารวจประกอบด้วยการพิมพ์ผิด พหูพจน์ หรือเอกพจน์ และปัญหากรณีและปัญหาทั้งหมด ตารางผลลัพธ์ยังประกอบด้วยคอลัมน์ Fruit คอลัมน์นี้ประกอบด้วยกราฟการกระจายคอลัมน์ที่แสดงคําตอบที่แตกต่างกันสี่คําตอบพร้อมคําตอบที่ไม่ซ้ํากันหนึ่งคําตอบ นอกจากนี้ยังแสดงรายการผลไม้ทั้งหมดที่สะกดอย่างถูกต้องเอกพจน์และกรณีที่เหมาะสม

การดําเนินการรวม Fuzzy

เมื่อต้องการทําการผสาน fuzzy คุณเริ่มต้นโดยทําการผสาน ในกรณีนี้ คุณใช้การรวมภายนอก ด้านซ้ายโดยที่ตารางด้านซ้ายคือตารางจากแบบสํารวจและตารางด้านขวาคือตาราง Fruits ตารางอ้างอิง ที่ด้านล่างของกล่องโต้ตอบ เลือกกล่องกาเครื่องหมาย ใช้การจับคู่แบบไม่เป็นทางการเพื่อดําเนินการผสาน

ภาพหน้าจอของกล่องโต้ตอบผสานที่แสดงวิธีการใช้การจับคู่แบบไม่เป็นทางการเพื่อดําเนินการตัวเลือกการผสาน

หลังจากที่คุณเลือก ตกลงคุณสามารถดูคอลัมน์ใหม่ในตารางของคุณเนื่องจากการดําเนินการผสานนี้ หากคุณขยาย มีแถวหนึ่งที่ไม่มีค่าใด ๆ อยู่ นั่นคือสิ่งที่กล่องข้อความในรูปภาพก่อนหน้าระบุไว้เมื่อมีข้อความว่า "การเลือกตรงกับ 8 จาก 9 แถวจากตารางแรก"

ผลลัพธ์การจับคู่แบบไม่เป็นทางการในคอลัมน์ Fruit

สกรีนช็อตของคอลัมน์ผลไม้ที่เพิ่มลงในตารางแบบสํารวจ แถวทั้งหมดในคอลัมน์คําถามจะถูกขยาย ยกเว้นแถว 9 ซึ่งไม่สามารถขยายได้และคอลัมน์ Fruit มี null

ตัวเลือกการจับคู่ Fuzzy

คุณสามารถปรับเปลี่ยนตัวเลือกการจับคู่ Fuzzy เพื่อปรับแต่งวิธีการจับคู่โดยประมาณ ก่อนอื่น ให้เลือกคําสั่ง คิวรีผสาน จากนั้นในกล่องโต้ตอบ ผสาน ขยายตัวเลือกการจับคู่ Fuzzy

สกรีนช็อตของกล่องโต้ตอบผสานพร้อมตัวเลือกการจับคู่ที่น่าเบื่อที่แสดง

ตัวเลือกที่ใช้ได้คือ:

  • ค่าเกณฑ์ความคล้ายคลึงกัน (ไม่บังคับ): ค่าระหว่าง 0.00 และ 1.00 ที่ให้ความสามารถในการจับคู่เรกคอร์ดเหนือคะแนนความคล้ายคลึงกันที่กําหนด ค่าเกณฑ์ 1.00 จะเหมือนกับการระบุเกณฑ์การจับคู่ที่ตรงกัน ตัวอย่างเช่น Grapes จับคู่กับ Graes (ไม่มีตัวอักษร p) เฉพาะในกรณีที่ตั้งค่าเกณฑ์น้อยกว่า 0.90 ตามค่าเริ่มต้น ค่านี้จะถูกตั้งค่าเป็น 0.80
  • ละเว้นตัวพิมพ์: อนุญาตให้ระเบียนที่ตรงกันไม่ว่าตัวพิมพ์เล็กหรือใหญ่ของข้อความจะเป็นอะไรก็ตาม
  • จับคู่โดยการรวมส่วนของข้อความ: อนุญาตให้รวมส่วนของข้อความเพื่อค้นหารายการที่ตรงกัน ตัวอย่างเช่น แบบนุ่มของ Micro จะถูกจับคู่กับ Microsoft ถ้ามีการเปิดใช้งานตัวเลือกนี้
  • แสดงคะแนนความคล้ายคลึงกัน: แสดงคะแนนความคล้ายคลึงกันระหว่างค่าที่ป้อนเข้าและค่าที่ตรงกันหลังจากจับคู่แบบไม่ชัดเจน
  • จํานวนของรายการที่ตรงกัน (ไม่บังคับ): ระบุจํานวนแถวที่ตรงกันสูงสุดที่สามารถส่งกลับได้สําหรับแถวอินพุตทั้งหมด
  • ตารางการแปลง (ไม่บังคับ): อนุญาตให้จับคู่ระเบียนโดยยึดตามการแมปค่าแบบกําหนดเอง ตัวอย่างเช่น Grapes จับคู่กับ Raisins ถ้ามีตารางการแปลงที่มีคอลัมน์ จาก ประกอบด้วย Grapes และคอลัมน์ To ประกอบด้วย Raisins

ตารางการแปลง

สําหรับตัวอย่างในบทความนี้ คุณสามารถใช้ตารางการแปลงเพื่อแมปค่าที่มีคู่ที่ขาดหายไป ค่าดังกล่าว aplsซึ่งจําเป็นต้องแมปกับ Apple ตารางการแปลงของคุณมีสองคอลัมน์:

  • จาก มีค่าที่จะค้นหา
  • ถึง มีค่าที่ใช้เพื่อแทนที่ค่าที่พบโดยใช้คอลัมน์ จาก

สําหรับบทความนี้ ตารางการแปลงจะมีลักษณะดังต่อไปนี้:

จาก ถึง
apls แอปเปิล

คุณสามารถย้อนกลับไปยังกล่องโต้ตอบ ผสาน และใน ตัวเลือกที่ตรงกันไม่เป็นทางการ ภายใต้ จํานวนการจับคู่ ให้ใส่ 1 เปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน จากนั้นภายใต้ การแปลง ให้เลือก แปลงตารางจากเมนูดรอปดาวน์

สกรีนช็อตของกล่องโต้ตอบผสานที่มีจํานวนรายการที่ตรงกันที่ตั้งค่าเป็น 1 และตารางการแปลงถูกตั้งค่าเป็นตารางแปลง

หลังจากที่คุณเลือก ตกลงคุณสามารถไปที่ขั้นตอนการผสานได้ เมื่อคุณขยายคอลัมน์ที่มีค่าตาราง นอกเหนือจากเขตข้อมูล Fruit คุณยังเห็นเขตข้อมูล คะแนนความคล้ายคลึงกัน เลือกทั้งสองและขยายโดยไม่เพิ่มคํานําหน้า

สกรีนช็อตของกล่องโต้ตอบขยายตารางสําหรับคอลัมน์ ผลไม้ ที่มีเขตข้อมูล ผลไม้และคะแนนความคล้ายคลึงกัน ที่เลือก

หลังจากที่คุณขยายสองเขตข้อมูลเหล่านี้แล้ว เขตข้อมูลเหล่านั้นจะถูกเพิ่มลงในตารางของคุณ สังเกตค่าที่คุณได้รับสําหรับคะแนนความคล้ายคลึงกันของแต่ละค่า คะแนนเหล่านี้สามารถช่วยให้คุณทําการแปลงเพิ่มเติมได้หากจําเป็นเพื่อตรวจสอบว่าคุณควรลดหรือเพิ่มค่าเกณฑ์ความคล้ายคลึงกันหรือไม่

สกรีนช็อตของผลลัพธ์ตารางหลังจากกระบวนการผสานแบบไม่ชัดเจนเกิดขึ้นโดยแสดงทั้งเขตข้อมูลผลไม้ใหม่และเขตข้อมูลคะแนนความคล้ายคลึงกันสําหรับแต่ละค่า

สําหรับตัวอย่างนี้ คะแนนความคล้ายคลึงกัน ทําหน้าที่เป็นข้อมูลเพิ่มเติมเท่านั้น และไม่จําเป็นในผลลัพธ์ของคิวรีนี้ ดังนั้นคุณสามารถเอาออกได้ โปรดทราบว่าตัวอย่างเริ่มต้นด้วยค่าที่แตกต่างกันเก้าค่า แต่หลังจากการผสานแบบไม่ชัดแจ้ง จะมีเพียงสี่ค่าที่แตกต่างกันเท่านั้น

ตารางผลลัพธ์ของแบบสํารวจผสาน Fuzzy

สกรีนช็อตของตารางผลลัพธ์แบบสํารวจรวมแบบไม่ชัดกับคอลัมน์คําถามที่ประกอบด้วยกราฟการกระจายคอลัมน์ที่แสดงคําตอบที่แตกต่างกันเก้าคําตอบที่มีคําตอบทั้งหมดที่ไม่ซ้ํากันและคําตอบไปยังแบบสํารวจด้วยการพิมพ์ผิดพหูพจน์หรือเอกพจน์และปัญหากรณีทั้งหมด นอกจากนี้ ประกอบด้วยคอลัมน์ Fruit ที่มีกราฟการกระจายคอลัมน์ ที่แสดงคําตอบที่แตกต่างกันสี่คําตอบพร้อมคําตอบที่ไม่ซ้ํากันหนึ่งคําตอบ และแสดงรายการผลไม้ทั้งหมดที่สะกดเป็นเอกพจน์ และกรณีที่เหมาะสมอย่างเหมาะสม

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการทํางานของตารางการแปลง ให้ไปที่ ตารางการแปลง

  • การจับคู่ Fuzzy
  • ค่าคลัสเตอร์
  • การจัดกลุ่มใน Fuzzy