ภาพรวมของการวิเคราะห์สาเหตุหลัก
การวิเคราะห์สาเหตุหลัก (RCA) ช่วยให้คุณค้นหาการเชื่อมต่อที่ซ่อนอยู่ในข้อมูลของคุณ ตัวอย่างเช่น ช่วยให้คุณเข้าใจว่าเหตุใดบางกรณีจึงใช้เวลาในการดำเนินการนานกว่ากรณีอื่นๆ หรือเหตุใดบางกรณีจึงติดขัดในการทำงานซ้ำในขณะที่บางกรณีทำงานได้อย่างราบรื่น RCA จะแสดงให้คุณเห็นความแตกต่างที่สำคัญระหว่างกรณีดังกล่าว
ข้อมูลที่จําเป็น
RCA สามารถใช้แอตทริบิวต์ระดับกรณี เมตริก และเมตริกแบบกำหนดเองทั้งหมดของคุณเพื่อค้นหาความเชื่อมโยงระหว่างพวกเขา และเมตริกที่คุณเลือก
ตัวอย่างที่ดีที่สุดคือการรวมข้อมูลทั้งหมดที่คุณสามารถทำได้เป็นแอตทริบิวต์ระดับกรณี และปล่อยให้ RCA เลือกว่าแอตทริบิวต์ใดที่มีอิทธิพลต่อเมตริกจริงๆ และที่ไม่ส่งผลต่อเมตริก
RCA ทำงานอย่างไร
อัลกอริทึม RCA จะคำนวณโครงสร้างแบบทรี โดยแต่ละโหนดจะแบ่งชุดข้อมูลออกเป็นสองส่วนย่อยๆ ซึ่งอิงตามตัวแปรหนึ่งตัวที่ค้นหาความสัมพันธ์ที่ดีที่สุดระหว่างการแยกตัวแปรกับเมตริกเป้าหมาย จากนี้ คุณจะเห็นการเชื่อมต่อที่ซ่อนอยู่ในข้อมูล นี่คือที่ที่จะบอกคุณว่าการรวมกันของแอตทริบิวต์ใดที่จะส่งผลต่อกรณีในทางใด
RCA ค้นหาการแยกส่วนที่ดีที่สุดได้อย่างไร
ขั้นแรก เราสร้างชุดค่าผสมที่เป็นไปได้หลายร้อยถึงพันชุด จากนั้นเราจะลองแยกแต่ละส่วนเพื่อดูว่าจะแบ่งชุดข้อมูลออกเป็นสองส่วนได้ดีเพียงใด เราคำนวณความแปรปรวนของเมตริกหลักในแต่ละส่วนของการแยก และคำนวณคะแนนสำหรับแต่ละการแยกด้วยการคำนวณต่อไปนี้:
scoresplit_x = varianceleft * number of casesleft + varianceright * number of casesright
จากนั้น เราจะจัดเรียงการแบ่งทั้งหมดตามคะแนนนี้ และการแบ่งที่ดีที่สุดจะถูกเลือกจากจุดเริ่มต้น ด้วยคะแนนต่ำสุด สำหรับเมตริกหลักตามประเภท (สตริง) เราคำนวณความไม่บริสุทธิ์ของ Gini แทนผลต่าง
ตัวอย่าง RCA
ในตัวอย่างนี้ เราต้องการดูสาเหตุหลักเบื้องหลังระยะเวลาของกรณี ในข้อมูล เรามีแอตทริบิวต์ระดับกรณี ประเทศของผู้จัดหาเมืองของผู้จัดหาร์วัสดุยอดรวม และ ศูนย์ต้นทุน ระยะเวลาเฉลี่ยของกรณีคือ 46 ชั่วโมง
เมื่อดูแต่ละค่าของแอตทริบิวต์แต่ละรายการแยกกัน เราจะเห็นว่าผู้มีอิทธิพลสูงสุดของระยะเวลากรณีคือเมื่อ เมืองของผู้จัดหา คือ ของผู้จัดหา ซึ่งโดยเฉลี่ยแล้วจะเพิ่มระยะเวลาของกรณีอีก 15 ชั่วโมง จากการวิเคราะห์เบื้องต้นนี้ เราจะเห็นว่าค่าแอตทริบิวต์อื่นๆ มีอิทธิพลต่อเมตริกเป้าหมายน้อยกว่ามาก อย่างไรก็ตาม เมื่อเราคำนวณโมเดลทรี เราจะเห็นว่าการคำนวณข้างต้นนั้นทำให้เข้าใจผิด (ดังภาพหน้าจอต่อไปนี้)
โครงสร้างทรีมีลักษณะดังนี้:
การแบ่งส่วนแรกคือข้อมูลตามตัวแปร วัสดุ ข้อมูลที่มี อลูมิเนียม อยู่ด้านหนึ่ง และวัสดุ อื่นๆ ทั้งหมดอยู่อีกด้านหนึ่ง
สาขา อะลูมิเนียม ถูกแบ่งเพิ่มเติมโดย ประเทศของผู้จัดหา เป็น เยอรมนี และ ออสเตรีย
สาขา ออสเตรีย ยังคงแบ่งตาม เมืองของผู้จัดหา ที่มี กราซ ด้านหนึ่ง และ เวียนนา ในอีกด้านหนึ่ง
ในโหนด กราซ กรณีเฉลี่ยของคือ 36 ชั่วโมง ช้ากว่าระยะเวลาเฉลี่ยโดยรวม 46 ชั่วโมง
ในแผนภูมิเดียวกัน เราจะเห็นว่าถ้าเรามีวัสดุอื่นที่ไม่ใช่อะลูมิเนียม ซึ่งก็แบ่งตามตัวแปร เมืองของผู้จัดหา เช่นเดียวกัน โดยที่ด้านใดด้านหนึ่งคือ กราซ และอีกด้านหนึ่งคือเวียนนา มิวนิก หรือแฟรงก์เฟิร์ต แต่ที่นี่ ค่าจะตรงกันข้าม กราซ มีสถิติที่ดีกว่าเวียนนาหรือเมืองอื่นๆ ในเยอรมัน โดยกรณีเฉลี่ยในกราซเร็วกว่าค่าเฉลี่ยโดยรวมสำหรับทุกกรณี 15 ชั่วโมง
จากนี้ เราจะเห็นว่าสถิติเริ่มต้นนั้นทำให้เข้าใจผิด เนื่องจากกราซทำงานได้ไม่ดีเมื่อวัสดุเป็นอะลูมิเนียม อย่างไรก็ตาม จะมีประสิทธิภาพสูงกว่าค่าเฉลี่ยเมื่อวัสดุไม่ใช่อะลูมิเนียม และตรงข้ามกับเมืองอื่นๆ อย่างสิ้นเชิง
สถิติ การมีผลต่อระยะเวลาของกรณี พิจารณาเพียงค่าเดียว และบางครั้งอาจทำให้เข้าใจผิดได้ RCA คำนึงถึงการผสมผสานของสิ่งเหล่านี้ เพื่อให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับกระบวนการของคุณ