แชร์ผ่าน


แนวทางปฏิบัติที่ดีที่สุดในการรวมข้อมูล

เมื่อคุณตั้งค่ากฎเพื่อรวมข้อมูลของคุณลงในโปรไฟล์ลูกค้า ให้พิจารณาหลักปฏิบัติที่ดีที่สุดเหล่านี้:

  • ปรับสมดุลเวลาเพื่อรวมเทียบกับการจับคู่ที่สมบูรณ์ การพยายามรวบรวมการจับคู่ทั้งหมดที่เป็นไปได้นำไปสู่กฎจำนวนมากและการรวมกันใช้เวลานาน

  • เพิ่มกฎอย่างต่อเนื่องและติดตามผลลัพธ์ ลบกฎที่ไม่ช่วยปรับปรุงผลการจับคู่

  • ขจัดความซ้ำซ้อนของแต่ละตาราง เพื่อให้ลูกค้าทุกรายแสดงในแถวเดียว

  • ใช้ การทำให้เป็นมาตรฐาน เพื่อสร้างมาตรฐานรูปแบบต่างๆ ในการป้อนข้อมูล เช่น Street เทียบกับ St เทียบกับ St. เทียบกับ st.

  • ใช้ การตรงกันบางส่วน อย่างมีกลยุทธ์เพื่อแก้ไขการพิมพ์ผิดและข้อผิดพลาด เช่น bob@contoso.com และ bob@contoso.cm การตรงกันบางส่วนใช้เวลาในการดำเนินการนานกว่าการจับคู่แบบตรงกันทั้งหมด ทดสอบเสมอเพื่อดูว่าเวลาพิเศษที่ใช้ในการจับคู่แบบคลุมเครือนั้นคุ้มค่ากับอัตราการจับคู่พิเศษหรือไม่

  • จำกัดขอบเขตของการจับคู่ให้แคบลงด้วย การจับคู่แบบตรงกันทั้งหมด ตรวจสอบให้แน่ใจว่ากฎทุกข้อที่มีเงื่อนไขคลุมเครือมีเงื่อนไขการจับคู่ที่แน่นอนอย่างน้อยหนึ่งเงื่อนไข

  • อย่าจับคู่คอลัมน์ที่มีข้อมูลที่ซ้ำกันอย่างมาก ตรวจสอบให้แน่ใจว่าคอลัมน์ที่จับคู่แบบคลุมเครือไม่มีค่าที่ซ้ำกันบ่อยๆ เช่น ค่าเริ่มต้นของฟอร์มเป็น "Firstname"

ประสิทธิภาพของการรวม

กฎแต่ละข้อต้องใช้เวลาในการทำงาน รูปแบบต่างๆ เช่น การเปรียบเทียบทุกตารางกับตารางอื่นๆ หรือการพยายามบันทึกทุกรายการที่เป็นไปได้อาจทำให้การประมวลผลการรวมใช้เวลานาน นอกจากนี้ยังส่งคืนข้อมูลเพียงเล็กน้อยหากมีการจับคู่เพิ่มเติมกับแผนที่เปรียบเทียบแต่ละตารางกับตารางฐาน

วิธีที่ดีที่สุดคือการเริ่มต้นด้วยชุดกฎพื้นฐานที่คุณรู้ว่าจำเป็น เช่น การเปรียบเทียบแต่ละตารางกับตารางหลักของคุณ ตารางหลักควรเป็นตารางที่มีข้อมูลที่สมบูรณ์และถูกต้องมากที่สุด ตารางนี้ควรเรียงลำดับที่ด้านบนในขั้นตอนการรวมด้วยกฎการจับคู่

เพิ่มกฎหลายข้อไปเรื่อยๆ และดูว่าการเปลี่ยนแปลงใช้เวลาในการทำงานนานเท่าใด และผลลัพธ์ของคุณดีขึ้นหรือไม่ ไปที่ การตั้งค่า>ระบบ>สถานะ และเลือก จับคู่ เพื่อดูว่าการขจัดข้อมูลซ้ำซ้อนและการจับคู่ใช้เวลานานเท่าใดสำหรับการเรียกใช้การรวมแต่ละครั้ง

ภาพหน้าจอของหน้าสถานะที่แสดงเวลาทำงานของการจับคู่

ดูสถิติของกฎในหน้า กฎการขจัดข้อมูลซ้ำ และ กฎการจับคู่ เพื่อดูว่าจำนวนของ เรกคอร์ดที่ไม่ซ้ำ เปลี่ยนแปลงไปหรือไม่ ถ้ากฎใหม่จับคู่บางเรกคอร์ด และจำนวนเรกคอร์ดที่ไม่ซ้ำกันไม่เปลี่ยนแปลง กฎก่อนหน้านี้จะระบุการจับคู่เหล่านั้น

ภาพหน้าจอของหน้ากฎการจับคู่ที่เน้นเรกคอร์ดที่ไม่ซ้ำ

ข้อมูลลูกค้า

ในขั้นตอน ข้อมูลลูกค้า:

  • ยกเว้นคอลัมน์ที่ไม่จำเป็นสำหรับกฎการจับคู่หรือที่คุณไม่ต้องการให้รวมอยู่ในโปรไฟล์ลูกค้าขั้นสุดท้าย

  • ตรวจสอบคำอธิบายคอลัมน์ที่เลือกโดยการแมปอัจฉริยะ

  • ไม่จำเป็นต้องแมปทุกคอลัมน์ การแมปคอลัมน์ทั่วไป เช่น ฟิลด์อีเมลและที่อยู่ช่วยให้ Customer Insights ทำให้กระบวนการดาวน์สตรีมได้ง่ายขึ้น แต่สามารถปล่อยคอลัมน์ที่มี ID หรือจุดประสงค์เฉพาะต่อธุรกิจของคุณไว้โดยไม่แมปได้

การขจัดข้อมูลซ้ำซ้อน

ใช้กฎการขจัดข้อมูลซ้ำซ้อนเพื่อลบเรกคอร์ดลูกค้าที่ซ้ำกันภายในตาราง เพื่อให้แถวเดียวในแต่ละตารางแสดงถึงลูกค้าแต่ละราย กฎที่ดีจะระบุถึงลูกค้าที่ไม่ซ้ำกัน

ในตัวอย่างง่ายๆ นี้ เรกคอร์ด 1, 2 และ 3 จะใช้อีเมลหรือหมายเลขโทรศัพท์ร่วมกัน และแสดงบุคคลเดียวกัน

ID Name หมายเลขโทรศัพท์ Email
1 บุคคลที่ 1 (425) 555-1111 AAA@A.com
2 บุคคลที่ 1 (425) 555-1111 BBB@B.com
3 บุคคลที่ 1 (425) 555-2222 BBB@B.com
4 บุคคลที่ 2 (206) 555-9999 Person2@contoso.com

เราไม่ต้องการที่จะจับคู่กับชื่อเพียงชื่อเดียว เนื่องจากจะจับคู่บุคคลอื่นที่มีชื่อเดียวกัน

  • สร้างกฎข้อที่ 1 โดยใช้ชื่อและโทรศัพท์ ซึ่งตรงกับเรกคอร์ดที่ 1 และ 2

  • สร้างกฎข้อที่ 2 โดยใช้ชื่อและอีเมล ซึ่งตรงกับเรกคอร์ดที่ 2 และ 3

การรวมกันของกฎข้อที่ 1 และกฎข้อที่ 2 จะสร้างกลุ่มการจับคู่กลุ่มเดียว เนื่องจากทั้งสองกลุ่มมีเรกคอร์ดที่ 2 ร่วมกัน

คุณเป็นผู้กำหนดจำนวนกฎและเงื่อนไขที่ระบุลูกค้าของคุณโดยเฉพาะ กฎที่แน่นอนขึ้นอยู่กับข้อมูลที่คุณใช้จับคู่ คุณภาพของข้อมูลของคุณและความละเอียดที่คุณต้องการให้กระบวนการขจัดข้อมูลซ้ำซ้อนเป็น

การทำให้เป็นมาตรฐาน

ใช้การทำให้เป็นมาตรฐานเพื่อสร้างมาตรฐานข้อมูลสำหรับการจับคู่ที่ดียิ่งขึ้น การทำให้เป็นมาตรฐานทำงานได้ดีกับชุดข้อมูลขนาดใหญ่

ข้อมูลที่เป็นมาตรฐานจะใช้เพื่อวัตถุประสงค์ในการเปรียบเทียบ เพื่อให้ตรงกับเรกคอร์ดของลูกค้าอย่างมีประสิทธิภาพมากขึ้นเท่านั้น จะไม่เปลี่ยนแปลงข้อมูลในผลลัพธ์โปรไฟล์ลูกค้าแบบรวมสุดท้าย

ตรงกันทุกประการ

ใช้ความแม่นยำเพื่อกำหนดว่าสตริงสองสายควรอยู่ใกล้แค่ไหนจึงจะถือว่าตรงกัน การตั้งค่าความแม่นยำเริ่มต้นต้องการการจับคู่แบบตรงทั้งหมด ค่าอื่นจะเปิดใช้งานการตรงกันบางส่วนสำหรับเงื่อนไขนั้น

ความแม่นยำสามารถตั้งค่าเป็นต่ำ (ตรงกัน 30%) ปานกลาง (ตรงกัน 60%) และสูง (ตรงกัน 80%) หรือคุณสามารถปรับแต่งและตั้งค่าความแม่นยำได้ทีละ 1%

เงื่อนไขตรงกันทุกประการ

เงื่อนไขตรงกันทุกประการจะถูกเรียกใช้ก่อนเพื่อให้ได้ชุดค่าที่น้อยลงสำหรับการตรงกันบางส่วน เพื่อให้มีประสิทธิภาพ เงื่อนไขการจับคู่ที่ตรงกันทุกประการควรมีความเป็นเอกลักษณ์ในระดับที่เหมาะสม ตัวอย่างเช่น หากลูกค้าทั้งหมดของคุณอาศัยอยู่ในประเทศ/ภูมิภาคเดียวกัน การจับคู่แบบตรงกันทุกประการในประเทศ/ภูมิภาคจะไม่ช่วยให้ขอบเขตแคบลง

คอลัมน์ เช่น ฟิลด์ชื่อนามสกุล อีเมล โทรศัพท์ หรือที่อยู่ มีความเป็นเอกลักษณ์ที่ดี และเป็นคอลัมน์ที่ดีเยี่ยมเพื่อใช้เป็นการจับคู่แบบตรงทั้งหมด

ตรวจสอบให้แน่ใจว่าคอลัมน์ที่คุณใช้สำหรับเงื่อนไขการจับคู่แบบตรงทั้งหมดไม่มีค่าใดๆ ที่เกิดซ้ำบ่อยครั้ง เช่น ค่าเริ่มต้นของ "Firstname" ที่ฟอร์มบันทึกไว้ Customer Insights สามารถสร้างโปรไฟล์คอลัมน์ข้อมูลเพื่อให้ข้อมูลเชิงลึกเกี่ยวกับค่าที่เกิดซ้ำสูงสุด คุณสามารถเปิดใช้งานการทำโปรไฟล์ข้อมูลบนการเชื่อมต่อ Azure Data Lake (โดยใช้รูปแบบ Common Data Model หรือ Delta) และ Synapse โปรไฟล์ข้อมูลจะทำงานเมื่อมีการรีเฟรชแหล่งข้อมูลครั้งถัดไป สำหรับข้อมูลเพิ่มเติม ไปที่ การทำโปรไฟล์ข้อมูล

การตรงกันบางส่วน

ใช้การตรงกันบางส่วนเพื่อจับคู่สตริงที่ใกล้เคียงแต่ไม่แน่ชัด เนื่องจากการพิมพ์ผิดหรือรูปแบบเล็กๆ อื่นๆ ใช้การตรงกันบางส่วนอย่างมีกลยุทธ์เนื่องจากช้ากว่าการตรงกันทุกประการ ตรวจสอบให้แน่ใจว่ามีเงื่อนไขการตรงกันทั้งหมดอย่างน้อยหนึ่งข้อในกฎใดๆ ที่มีการตรงกันบางส่วน

การตรงกันบางส่วนไม่ได้มีวัตถุประสงค์เพื่อรวบรวมรูปแบบชื่อต่างๆ เช่น Suzzie และ Suzanne รูปแบบเหล่านี้จะมีการรวบรวมได้ดีขึ้นด้วยรูปแบบการทำให้เป็นมาตรฐาน ชนิด: ชื่อ หรือ การจับคู่นามแฝง ที่กำหนดเอง ซึ่งลูกค้าสามารถป้อนรายการรูปแบบชื่อที่ต้องการพิจารณาว่าตรงกันได้

คุณสามารถเพิ่มเงื่อนไขให้กับกฎ เช่น การจับคู่ชื่อและหมายเลขโทรศัพท์ เงื่อนไขภายในกฎที่กำหนดคือเงื่อนไข "และ" ทุกเงื่อนไขต้องตรงกันสำหรับแถวที่จะจับคู่ กฎแยกต่างหากคือเงื่อนไข "หรือ" หากกฎข้อที่ 1 ไม่ตรงกับแถว แถวนั้นจะถูกเปรียบเทียบกับกฎข้อที่ 2

หมายเหตุ

เฉพาะคอลัมน์ชนิดข้อมูลสตริงเท่านั้นที่สามารถใช้การจับคู่แบบคลุมเครือได้ สำหรับคอลัมน์ที่มีชนิดข้อมูลอื่นๆ เช่น จำนวนเต็ม คู่ หรือวันที่เวลา ฟิลด์ความแม่นยำจะเป็นแบบอ่านอย่างเดียวและตั้งค่าเป็นตรงกันทั้งหมด

การคำนวณการจับคู่แบบคลุมเครือ

การตรงกันบางส่วนถูกกำหนดโดยการคำนวณคะแนนระยะการแก้ไขระหว่างสองสตริง หากคะแนนตรงตามหรือสูงกว่าเกณฑ์ความแม่นยำ สตริงจะถือว่าตรงกัน

ระยะการแก้ไขคือจำนวนการแก้ไขที่จำเป็นในการเปลี่ยนสตริงหนึ่งเป็นอีกสตริงหนึ่ง โดยการเพิ่ม ลบ หรือเปลี่ยนอักขระ

ตัวอย่างเช่น สตริง "robert2020@hotmail.com" และ "robrt2020@hotmail.cm" มีระยะการแก้ไขเป็นสองเมื่อเราลบอักขระ e และ o ในการคำนวณคะแนนระยะการแก้ไข ให้ใช้สูตรนี้: (ความยาวสตริงฐาน – ระยะการแก้ไข) / ความยาวสตริงฐาน

สตริงฐาน การเปรียบเทียบสตริง คะแนน
robert2020@hotmail.com robrt2020@hotmail.cm (20 - 2)/20 = 0.9