แนวทางปฏิบัติที่ดีที่สุดในการรวมข้อมูล
เมื่อคุณตั้งค่ากฎเพื่อรวมข้อมูลของคุณลงในโปรไฟล์ลูกค้า ให้พิจารณาหลักปฏิบัติที่ดีที่สุดเหล่านี้:
ปรับสมดุลเวลาเพื่อรวมเทียบกับการจับคู่ที่สมบูรณ์ การพยายามรวบรวมการจับคู่ทั้งหมดที่เป็นไปได้นำไปสู่กฎจำนวนมากและการรวมกันใช้เวลานาน
เพิ่มกฎอย่างต่อเนื่องและติดตามผลลัพธ์ ลบกฎที่ไม่ช่วยปรับปรุงผลการจับคู่
ขจัดความซ้ำซ้อนของแต่ละตาราง เพื่อให้ลูกค้าทุกรายแสดงในแถวเดียว
ใช้ การทำให้เป็นมาตรฐาน เพื่อสร้างมาตรฐานรูปแบบต่างๆ ในการป้อนข้อมูล เช่น Street เทียบกับ St เทียบกับ St. เทียบกับ st.
ใช้ การตรงกันบางส่วน อย่างมีกลยุทธ์เพื่อแก้ไขการพิมพ์ผิดและข้อผิดพลาด เช่น bob@contoso.com และ bob@contoso.cm การตรงกันบางส่วนใช้เวลาในการดำเนินการนานกว่าการจับคู่แบบตรงกันทั้งหมด ทดสอบเสมอเพื่อดูว่าเวลาพิเศษที่ใช้ในการจับคู่แบบคลุมเครือนั้นคุ้มค่ากับอัตราการจับคู่พิเศษหรือไม่
จำกัดขอบเขตของการจับคู่ให้แคบลงด้วย การจับคู่แบบตรงกันทั้งหมด ตรวจสอบให้แน่ใจว่ากฎทุกข้อที่มีเงื่อนไขคลุมเครือมีเงื่อนไขการจับคู่ที่แน่นอนอย่างน้อยหนึ่งเงื่อนไข
อย่าจับคู่คอลัมน์ที่มีข้อมูลที่ซ้ำกันอย่างมาก ตรวจสอบให้แน่ใจว่าคอลัมน์ที่จับคู่แบบคลุมเครือไม่มีค่าที่ซ้ำกันบ่อยๆ เช่น ค่าเริ่มต้นของฟอร์มเป็น "Firstname"
ประสิทธิภาพของการรวม
กฎแต่ละข้อต้องใช้เวลาในการทำงาน รูปแบบต่างๆ เช่น การเปรียบเทียบทุกตารางกับตารางอื่นๆ หรือการพยายามบันทึกทุกรายการที่เป็นไปได้อาจทำให้การประมวลผลการรวมใช้เวลานาน นอกจากนี้ยังส่งคืนข้อมูลเพียงเล็กน้อยหากมีการจับคู่เพิ่มเติมกับแผนที่เปรียบเทียบแต่ละตารางกับตารางฐาน
วิธีที่ดีที่สุดคือการเริ่มต้นด้วยชุดกฎพื้นฐานที่คุณรู้ว่าจำเป็น เช่น การเปรียบเทียบแต่ละตารางกับตารางหลักของคุณ ตารางหลักควรเป็นตารางที่มีข้อมูลที่สมบูรณ์และถูกต้องมากที่สุด ตารางนี้ควรเรียงลำดับที่ด้านบนในขั้นตอนการรวมด้วยกฎการจับคู่
เพิ่มกฎหลายข้อไปเรื่อยๆ และดูว่าการเปลี่ยนแปลงใช้เวลาในการทำงานนานเท่าใด และผลลัพธ์ของคุณดีขึ้นหรือไม่ ไปที่ การตั้งค่า>ระบบ>สถานะ และเลือก จับคู่ เพื่อดูว่าการขจัดข้อมูลซ้ำซ้อนและการจับคู่ใช้เวลานานเท่าใดสำหรับการเรียกใช้การรวมแต่ละครั้ง
ดูสถิติของกฎในหน้า กฎการขจัดข้อมูลซ้ำ และ กฎการจับคู่ เพื่อดูว่าจำนวนของ เรกคอร์ดที่ไม่ซ้ำ เปลี่ยนแปลงไปหรือไม่ ถ้ากฎใหม่จับคู่บางเรกคอร์ด และจำนวนเรกคอร์ดที่ไม่ซ้ำกันไม่เปลี่ยนแปลง กฎก่อนหน้านี้จะระบุการจับคู่เหล่านั้น
ข้อมูลลูกค้า
ในขั้นตอน ข้อมูลลูกค้า:
ยกเว้นคอลัมน์ที่ไม่จำเป็นสำหรับกฎการจับคู่หรือที่คุณไม่ต้องการให้รวมอยู่ในโปรไฟล์ลูกค้าขั้นสุดท้าย
ตรวจสอบคำอธิบายคอลัมน์ที่เลือกโดยการแมปอัจฉริยะ
ไม่จำเป็นต้องแมปทุกคอลัมน์ การแมปคอลัมน์ทั่วไป เช่น ฟิลด์อีเมลและที่อยู่ช่วยให้ Customer Insights ทำให้กระบวนการดาวน์สตรีมได้ง่ายขึ้น แต่สามารถปล่อยคอลัมน์ที่มี ID หรือจุดประสงค์เฉพาะต่อธุรกิจของคุณไว้โดยไม่แมปได้
การขจัดข้อมูลซ้ำซ้อน
ใช้กฎการขจัดข้อมูลซ้ำซ้อนเพื่อลบเรกคอร์ดลูกค้าที่ซ้ำกันภายในตาราง เพื่อให้แถวเดียวในแต่ละตารางแสดงถึงลูกค้าแต่ละราย กฎที่ดีจะระบุถึงลูกค้าที่ไม่ซ้ำกัน
ในตัวอย่างง่ายๆ นี้ เรกคอร์ด 1, 2 และ 3 จะใช้อีเมลหรือหมายเลขโทรศัพท์ร่วมกัน และแสดงบุคคลเดียวกัน
ID | Name | หมายเลขโทรศัพท์ | |
---|---|---|---|
1 | บุคคลที่ 1 | (425) 555-1111 | AAA@A.com |
2 | บุคคลที่ 1 | (425) 555-1111 | BBB@B.com |
3 | บุคคลที่ 1 | (425) 555-2222 | BBB@B.com |
4 | บุคคลที่ 2 | (206) 555-9999 | Person2@contoso.com |
เราไม่ต้องการที่จะจับคู่กับชื่อเพียงชื่อเดียว เนื่องจากจะจับคู่บุคคลอื่นที่มีชื่อเดียวกัน
สร้างกฎข้อที่ 1 โดยใช้ชื่อและโทรศัพท์ ซึ่งตรงกับเรกคอร์ดที่ 1 และ 2
สร้างกฎข้อที่ 2 โดยใช้ชื่อและอีเมล ซึ่งตรงกับเรกคอร์ดที่ 2 และ 3
การรวมกันของกฎข้อที่ 1 และกฎข้อที่ 2 จะสร้างกลุ่มการจับคู่กลุ่มเดียว เนื่องจากทั้งสองกลุ่มมีเรกคอร์ดที่ 2 ร่วมกัน
คุณเป็นผู้กำหนดจำนวนกฎและเงื่อนไขที่ระบุลูกค้าของคุณโดยเฉพาะ กฎที่แน่นอนขึ้นอยู่กับข้อมูลที่คุณใช้จับคู่ คุณภาพของข้อมูลของคุณและความละเอียดที่คุณต้องการให้กระบวนการขจัดข้อมูลซ้ำซ้อนเป็น
การทำให้เป็นมาตรฐาน
ใช้การทำให้เป็นมาตรฐานเพื่อสร้างมาตรฐานข้อมูลสำหรับการจับคู่ที่ดียิ่งขึ้น การทำให้เป็นมาตรฐานทำงานได้ดีกับชุดข้อมูลขนาดใหญ่
ข้อมูลที่เป็นมาตรฐานจะใช้เพื่อวัตถุประสงค์ในการเปรียบเทียบ เพื่อให้ตรงกับเรกคอร์ดของลูกค้าอย่างมีประสิทธิภาพมากขึ้นเท่านั้น จะไม่เปลี่ยนแปลงข้อมูลในผลลัพธ์โปรไฟล์ลูกค้าแบบรวมสุดท้าย
ตรงกันทุกประการ
ใช้ความแม่นยำเพื่อกำหนดว่าสตริงสองสายควรอยู่ใกล้แค่ไหนจึงจะถือว่าตรงกัน การตั้งค่าความแม่นยำเริ่มต้นต้องการการจับคู่แบบตรงทั้งหมด ค่าอื่นจะเปิดใช้งานการตรงกันบางส่วนสำหรับเงื่อนไขนั้น
ความแม่นยำสามารถตั้งค่าเป็นต่ำ (ตรงกัน 30%) ปานกลาง (ตรงกัน 60%) และสูง (ตรงกัน 80%) หรือคุณสามารถปรับแต่งและตั้งค่าความแม่นยำได้ทีละ 1%
เงื่อนไขตรงกันทุกประการ
เงื่อนไขตรงกันทุกประการจะถูกเรียกใช้ก่อนเพื่อให้ได้ชุดค่าที่น้อยลงสำหรับการตรงกันบางส่วน เพื่อให้มีประสิทธิภาพ เงื่อนไขการจับคู่ที่ตรงกันทุกประการควรมีความเป็นเอกลักษณ์ในระดับที่เหมาะสม ตัวอย่างเช่น หากลูกค้าทั้งหมดของคุณอาศัยอยู่ในประเทศ/ภูมิภาคเดียวกัน การจับคู่แบบตรงกันทุกประการในประเทศ/ภูมิภาคจะไม่ช่วยให้ขอบเขตแคบลง
คอลัมน์ เช่น ฟิลด์ชื่อนามสกุล อีเมล โทรศัพท์ หรือที่อยู่ มีความเป็นเอกลักษณ์ที่ดี และเป็นคอลัมน์ที่ดีเยี่ยมเพื่อใช้เป็นการจับคู่แบบตรงทั้งหมด
ตรวจสอบให้แน่ใจว่าคอลัมน์ที่คุณใช้สำหรับเงื่อนไขการจับคู่แบบตรงทั้งหมดไม่มีค่าใดๆ ที่เกิดซ้ำบ่อยครั้ง เช่น ค่าเริ่มต้นของ "Firstname" ที่ฟอร์มบันทึกไว้ Customer Insights สามารถสร้างโปรไฟล์คอลัมน์ข้อมูลเพื่อให้ข้อมูลเชิงลึกเกี่ยวกับค่าที่เกิดซ้ำสูงสุด คุณสามารถเปิดใช้งานการทำโปรไฟล์ข้อมูลบนการเชื่อมต่อ Azure Data Lake (โดยใช้รูปแบบ Common Data Model หรือ Delta) และ Synapse โปรไฟล์ข้อมูลจะทำงานเมื่อมีการรีเฟรชแหล่งข้อมูลครั้งถัดไป สำหรับข้อมูลเพิ่มเติม ไปที่ การทำโปรไฟล์ข้อมูล
การตรงกันบางส่วน
ใช้การตรงกันบางส่วนเพื่อจับคู่สตริงที่ใกล้เคียงแต่ไม่แน่ชัด เนื่องจากการพิมพ์ผิดหรือรูปแบบเล็กๆ อื่นๆ ใช้การตรงกันบางส่วนอย่างมีกลยุทธ์เนื่องจากช้ากว่าการตรงกันทุกประการ ตรวจสอบให้แน่ใจว่ามีเงื่อนไขการตรงกันทั้งหมดอย่างน้อยหนึ่งข้อในกฎใดๆ ที่มีการตรงกันบางส่วน
การตรงกันบางส่วนไม่ได้มีวัตถุประสงค์เพื่อรวบรวมรูปแบบชื่อต่างๆ เช่น Suzzie และ Suzanne รูปแบบเหล่านี้จะมีการรวบรวมได้ดีขึ้นด้วยรูปแบบการทำให้เป็นมาตรฐาน ชนิด: ชื่อ หรือ การจับคู่นามแฝง ที่กำหนดเอง ซึ่งลูกค้าสามารถป้อนรายการรูปแบบชื่อที่ต้องการพิจารณาว่าตรงกันได้
คุณสามารถเพิ่มเงื่อนไขให้กับกฎ เช่น การจับคู่ชื่อและหมายเลขโทรศัพท์ เงื่อนไขภายในกฎที่กำหนดคือเงื่อนไข "และ" ทุกเงื่อนไขต้องตรงกันสำหรับแถวที่จะจับคู่ กฎแยกต่างหากคือเงื่อนไข "หรือ" หากกฎข้อที่ 1 ไม่ตรงกับแถว แถวนั้นจะถูกเปรียบเทียบกับกฎข้อที่ 2
หมายเหตุ
เฉพาะคอลัมน์ชนิดข้อมูลสตริงเท่านั้นที่สามารถใช้การจับคู่แบบคลุมเครือได้ สำหรับคอลัมน์ที่มีชนิดข้อมูลอื่นๆ เช่น จำนวนเต็ม คู่ หรือวันที่เวลา ฟิลด์ความแม่นยำจะเป็นแบบอ่านอย่างเดียวและตั้งค่าเป็นตรงกันทั้งหมด
การคำนวณการจับคู่แบบคลุมเครือ
การตรงกันบางส่วนถูกกำหนดโดยการคำนวณคะแนนระยะการแก้ไขระหว่างสองสตริง หากคะแนนตรงตามหรือสูงกว่าเกณฑ์ความแม่นยำ สตริงจะถือว่าตรงกัน
ระยะการแก้ไขคือจำนวนการแก้ไขที่จำเป็นในการเปลี่ยนสตริงหนึ่งเป็นอีกสตริงหนึ่ง โดยการเพิ่ม ลบ หรือเปลี่ยนอักขระ
ตัวอย่างเช่น สตริง "robert2020@hotmail.com" และ "robrt2020@hotmail.cm" มีระยะการแก้ไขเป็นสองเมื่อเราลบอักขระ e และ o ในการคำนวณคะแนนระยะการแก้ไข ให้ใช้สูตรนี้: (ความยาวสตริงฐาน – ระยะการแก้ไข) / ความยาวสตริงฐาน
สตริงฐาน | การเปรียบเทียบสตริง | คะแนน |
---|---|---|
robert2020@hotmail.com | robrt2020@hotmail.cm | (20 - 2)/20 = 0.9 |