การผสาน Fuzzy
การรวม Fuzzy เป็นคุณลักษณะการเตรียมข้อมูลอัจฉริยะที่คุณสามารถใช้เพื่อใช้อัลกอริทึมการจับคู่ที่ไม่น่าเบื่อเมื่อเปรียบเทียบคอลัมน์ อัลกอริทึมเหล่านี้พยายามค้นหารายการที่ตรงกันในตารางที่กําลังผสาน
คุณสามารถเปิดใช้งานการจับคู่แบบไม่น่าเบื่อที่ด้านล่างของกล่องโต้ตอบ ผสาน ด้วยการเลือก ใช้การจับคู่แบบไม่เป็นทางการเพื่อดําเนินการผสานปุ่มตัวเลือก ข้อมูลเพิ่มเติม:ภาพรวมการดําเนินการผสาน
โน้ต
การจับคู่แบบไม่เป็นทางการรองรับเฉพาะการดําเนินการผสานบนคอลัมน์ข้อความเท่านั้น Power Query ใช้อัลกอริทึมความคล้ายคลึงกันของ Jaccard เพื่อวัดความคล้ายคลึงกันระหว่างคู่ของอินสแตนซ์
สถานการณ์ตัวอย่าง
กรณีการใช้งานทั่วไปสําหรับการจับคู่แบบไม่เป็นทางการคือกับเขตข้อมูลข้อความรูปแบบอิสระ เช่น ในแบบสํารวจ สําหรับบทความนี้ ตารางตัวอย่างถูกนํามาโดยตรงจากแบบสํารวจออนไลน์ที่ส่งไปยังกลุ่มที่มีคําถามเดียวเท่านั้น: ผลไม้ที่คุณชื่นชอบคืออะไร
ผลลัพธ์ของแบบสํารวจนั้นจะแสดงในรูปต่อไปนี้
สกรีนช็อตของตารางผลลัพธ์แบบสํารวจตัวอย่างที่มีกราฟการกระจายคอลัมน์ที่แสดงคําตอบที่แตกต่างกันเก้าคําตอบพร้อมคําตอบที่ไม่ซ้ํากันทั้งหมดและคําตอบสําหรับแบบสํารวจด้วยการพิมพ์ผิดพหูพจน์หรือเอกพจน์และปัญหากรณีทั้งหมด
ระเบียนเก้ารายการสะท้อนถึงการส่งแบบสํารวจ ปัญหาเกี่ยวกับการส่งแบบสํารวจคือบางปัญหามีการพิมพ์ผิด บางอย่างเป็นพหูพจน์ บางส่วนเป็นเอกพจน์ บางส่วนเป็นตัวพิมพ์ใหญ่ และบางส่วนเป็นตัวพิมพ์เล็ก
เพื่อช่วยสร้างมาตรฐานค่าเหล่านี้ ในตัวอย่างนี้คุณมีตารางอ้างอิง Fruits อ้างอิง
สกรีนช็อตของตารางอ้างอิงผลไม้ที่มีกราฟการกระจายคอลัมน์แสดงผลไม้ที่แตกต่างกันสี่ชนิดโดยมีผลไม้ไม่ซ้ํากันและรายการของผลไม้: แอปเปิ้ล, สับปะรด, แตงโมและกล้วย
โน้ต
เพื่อความง่าย ตารางอ้างอิง Fruits นี้มีชื่อของผลไม้ที่จําเป็นสําหรับสถานการณ์นี้เท่านั้น ตารางอ้างอิงของคุณสามารถมีแถวได้มากเท่าที่คุณต้องการ
เป้าหมายคือการสร้างตารางดังต่อไปนี้ ซึ่งคุณได้กําหนดมาตรฐานค่าเหล่านี้ทั้งหมดเพื่อให้คุณทําการวิเคราะห์ได้มากขึ้น
สกรีนช็อตของตารางผลลัพธ์แบบสํารวจตัวอย่างที่มีคอลัมน์คําถามที่มีกราฟการกระจายคอลัมน์ กราฟแสดงคําตอบที่แตกต่างกันเก้าคําตอบพร้อมคําตอบที่ไม่ซ้ํากันทั้งหมด คําตอบของแบบสํารวจประกอบด้วยการพิมพ์ผิด พหูพจน์ หรือเอกพจน์ และปัญหากรณีและปัญหาทั้งหมด ตารางผลลัพธ์ยังประกอบด้วยคอลัมน์ Fruit คอลัมน์นี้ประกอบด้วยกราฟการกระจายคอลัมน์ที่แสดงคําตอบที่แตกต่างกันสี่คําตอบพร้อมคําตอบที่ไม่ซ้ํากันหนึ่งคําตอบ นอกจากนี้ยังแสดงรายการผลไม้ทั้งหมดที่สะกดอย่างถูกต้องเอกพจน์และกรณีที่เหมาะสม
การดําเนินการรวม Fuzzy
เมื่อต้องการทําการผสาน fuzzy คุณเริ่มต้นโดยทําการผสาน ในกรณีนี้ คุณใช้การรวมภายนอก ด้านซ้ายโดยที่ตารางด้านซ้ายคือตารางจากแบบสํารวจและตารางด้านขวาคือตาราง Fruits ตารางอ้างอิง ที่ด้านล่างของกล่องโต้ตอบ เลือกกล่องกาเครื่องหมาย ใช้การจับคู่แบบไม่เป็นทางการเพื่อดําเนินการผสาน
หลังจากที่คุณเลือก ตกลงคุณสามารถดูคอลัมน์ใหม่ในตารางของคุณเนื่องจากการดําเนินการผสานนี้ หากคุณขยาย มีแถวหนึ่งที่ไม่มีค่าใด ๆ อยู่ นั่นคือสิ่งที่กล่องข้อความในรูปภาพก่อนหน้าระบุไว้เมื่อมีข้อความว่า "การเลือกตรงกับ 8 จาก 9 แถวจากตารางแรก"
สกรีนช็อตของคอลัมน์ผลไม้ที่เพิ่มลงในตารางแบบสํารวจ แถวทั้งหมดในคอลัมน์คําถามจะถูกขยาย ยกเว้นแถว 9 ซึ่งไม่สามารถขยายได้และคอลัมน์ Fruit มี null
ตัวเลือกการจับคู่ Fuzzy
คุณสามารถปรับเปลี่ยนตัวเลือกการจับคู่ Fuzzy เพื่อปรับแต่งวิธีการจับคู่โดยประมาณ ก่อนอื่น ให้เลือกคําสั่ง คิวรีผสาน
ตัวเลือกที่ใช้ได้คือ:
- ค่าเกณฑ์ความคล้ายคลึงกัน (ไม่บังคับ): ค่าระหว่าง 0.00 และ 1.00 ที่ให้ความสามารถในการจับคู่เรกคอร์ดเหนือคะแนนความคล้ายคลึงกันที่กําหนด ค่าเกณฑ์ 1.00 จะเหมือนกับการระบุเกณฑ์การจับคู่ที่ตรงกัน ตัวอย่างเช่น Grapes จับคู่กับ Graes (ไม่มีตัวอักษร p) เฉพาะในกรณีที่ตั้งค่าเกณฑ์น้อยกว่า 0.90 ตามค่าเริ่มต้น ค่านี้จะถูกตั้งค่าเป็น 0.80
- ละเว้นตัวพิมพ์: อนุญาตให้ระเบียนที่ตรงกันไม่ว่าตัวพิมพ์เล็กหรือใหญ่ของข้อความจะเป็นอะไรก็ตาม
- จับคู่โดยการรวมส่วนของข้อความ: อนุญาตให้รวมส่วนของข้อความเพื่อค้นหารายการที่ตรงกัน ตัวอย่างเช่น แบบนุ่มของ Micro จะถูกจับคู่กับ Microsoft ถ้ามีการเปิดใช้งานตัวเลือกนี้
- แสดงคะแนนความคล้ายคลึงกัน: แสดงคะแนนความคล้ายคลึงกันระหว่างค่าที่ป้อนเข้าและค่าที่ตรงกันหลังจากจับคู่แบบไม่ชัดเจน
- จํานวนของรายการที่ตรงกัน (ไม่บังคับ): ระบุจํานวนแถวที่ตรงกันสูงสุดที่สามารถส่งกลับได้สําหรับแถวอินพุตทั้งหมด
- ตารางการแปลง (ไม่บังคับ): อนุญาตให้จับคู่ระเบียนโดยยึดตามการแมปค่าแบบกําหนดเอง ตัวอย่างเช่น Grapes จับคู่กับ Raisins ถ้ามีตารางการแปลงที่มีคอลัมน์ จาก ประกอบด้วย Grapes และคอลัมน์ To ประกอบด้วย Raisins
ตารางการแปลง
สําหรับตัวอย่างในบทความนี้ คุณสามารถใช้ตารางการแปลงเพื่อแมปค่าที่มีคู่ที่ขาดหายไป ค่าดังกล่าว aplsซึ่งจําเป็นต้องแมปกับ Apple ตารางการแปลงของคุณมีสองคอลัมน์:
- จาก มีค่าที่จะค้นหา
- ถึง มีค่าที่ใช้เพื่อแทนที่ค่าที่พบโดยใช้คอลัมน์ จาก
สําหรับบทความนี้ ตารางการแปลงจะมีลักษณะดังต่อไปนี้:
จาก | ถึง |
---|---|
apls | แอปเปิล |
คุณสามารถย้อนกลับไปยังกล่องโต้ตอบ ผสาน และใน ตัวเลือกที่ตรงกันไม่เป็นทางการ ภายใต้ จํานวนการจับคู่ ให้ใส่ 1 เปิดใช้งานตัวเลือก
หลังจากที่คุณเลือก ตกลงคุณสามารถไปที่ขั้นตอนการผสานได้ เมื่อคุณขยายคอลัมน์ที่มีค่าตาราง นอกเหนือจากเขตข้อมูล Fruit คุณยังเห็นเขตข้อมูล คะแนนความคล้ายคลึงกัน เลือกทั้งสองและขยายโดยไม่เพิ่มคํานําหน้า
หลังจากที่คุณขยายสองเขตข้อมูลเหล่านี้แล้ว เขตข้อมูลเหล่านั้นจะถูกเพิ่มลงในตารางของคุณ สังเกตค่าที่คุณได้รับสําหรับคะแนนความคล้ายคลึงกันของแต่ละค่า คะแนนเหล่านี้สามารถช่วยให้คุณทําการแปลงเพิ่มเติมได้หากจําเป็นเพื่อตรวจสอบว่าคุณควรลดหรือเพิ่มค่าเกณฑ์ความคล้ายคลึงกันหรือไม่
สําหรับตัวอย่างนี้ คะแนนความคล้ายคลึงกัน ทําหน้าที่เป็นข้อมูลเพิ่มเติมเท่านั้น และไม่จําเป็นในผลลัพธ์ของคิวรีนี้ ดังนั้นคุณสามารถเอาออกได้ โปรดทราบว่าตัวอย่างเริ่มต้นด้วยค่าที่แตกต่างกันเก้าค่า แต่หลังจากการผสานแบบไม่ชัดแจ้ง จะมีเพียงสี่ค่าที่แตกต่างกันเท่านั้น
สกรีนช็อตของตารางผลลัพธ์แบบสํารวจรวมแบบไม่ชัดกับคอลัมน์คําถามที่ประกอบด้วยกราฟการกระจายคอลัมน์ที่แสดงคําตอบที่แตกต่างกันเก้าคําตอบที่มีคําตอบทั้งหมดที่ไม่ซ้ํากันและคําตอบไปยังแบบสํารวจด้วยการพิมพ์ผิดพหูพจน์หรือเอกพจน์และปัญหากรณีทั้งหมด นอกจากนี้ ประกอบด้วยคอลัมน์ Fruit ที่มีกราฟการกระจายคอลัมน์ ที่แสดงคําตอบที่แตกต่างกันสี่คําตอบพร้อมคําตอบที่ไม่ซ้ํากันหนึ่งคําตอบ และแสดงรายการผลไม้ทั้งหมดที่สะกดเป็นเอกพจน์ และกรณีที่เหมาะสมอย่างเหมาะสม
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการทํางานของตารางการแปลง ให้ไปที่ ตารางการแปลง
เนื้อหาที่เกี่ยวข้อง
- การจับคู่ Fuzzy
- ค่าคลัสเตอร์
- การจัดกลุ่มใน
Fuzzy