แชร์ผ่าน


คำแนะนำสำหรับการออกแบบกลยุทธ์การกู้คืนความเสียหาย

ใช้กับคำแนะนำรายการตรวจสอบความน่าเชื่อถือที่ได้รับการออกแบบอย่างดีนี้: Power Platform

RE:07 ปรับใช้แผนความต่อเนื่องทางธุรกิจและการกู้คืนความเสียหาย (BCDR) ที่มีโครงสร้าง ได้รับการทดสอบ และจัดทำเป็นเอกสารซึ่งสอดคล้องกับเป้าหมายการกู้คืน แผนต้องครอบคลุมส่วนประกอบทั้งหมดและระบบโดยรวม

คู่มือนี้จะอธิบายคำแนะนำสำหรับการออกแบบกลยุทธ์การกู้คืนความเสียหายที่เชื่อถือได้สำหรับปริมาณงาน เพื่อให้บรรลุวัตถุประสงค์ระดับการบริการภายใน (SLO) หรือแม้แต่ข้อตกลงระดับการให้บริการ (SLA) ที่คุณรับประกันให้กับลูกค้าของคุณ คุณต้องมีกลยุทธ์การกู้คืนความเสียหายที่แข็งแกร่งและเชื่อถือได้ คาดว่าจะเกิดความล้มเหลวและปัญหาสำคัญอื่นๆ การเตรียมการของคุณเพื่อจัดการกับเหตุการณ์เหล่านี้จะกำหนดว่าลูกค้าสามารถไว้วางใจธุรกิจของคุณในการส่งมอบให้กับพวกเขาได้อย่างน่าเชื่อถือมากเพียงใด กลยุทธ์การกู้คืนความเสียหายเป็นหัวใจสำคัญของการเตรียมพร้อมสำหรับเหตุการณ์สำคัญ

คำจำกัดความ

เงื่อนไข ข้อกำหนด
เฟลโอเวอร์ การเปลี่ยนปริมาณงานการผลิตโดยอัตโนมัติและ/หรือด้วยตนเองจากภูมิภาคที่ไม่พร้อมใช้งานไปยังภูมิภาคที่ไม่ได้รับผลกระทบ
เฟลแบ็ก การเปลี่ยนปริมาณงานการผลิตโดยอัตโนมัติและ/หรือด้วยตนเองจากภูมิภาคที่เฟลโอเวอร์กลับไปยังภูมิภาคหลัก

กลยุทธ์การออกแบบที่สำคัญ

คู่มือนี้จะถือว่าคุณได้ดำเนินการงานต่อไปนี้โดยเป็นส่วนหนึ่งของการวางแผนความน่าเชื่อถือของคุณแล้ว:

สถาปัตยกรรมปริมาณงานที่เชื่อถือได้เป็นพื้นฐานสำหรับกลยุทธ์การกู้คืนความเสียหาย (DR) ที่เชื่อถือได้ พิจารณาความน่าเชื่อถือในทุกขั้นตอนของการสร้างปริมาณงานของคุณเพื่อให้แน่ใจว่าคุณมีองค์ประกอบที่จำเป็นสำหรับการกู้คืนที่มีประสิทธิภาพก่อนที่คุณจะเริ่มวางแผนกลยุทธ์ DR รากฐานนี้ช่วยให้แน่ใจว่าเป้าหมายความน่าเชื่อถือของปริมาณงานของคุณ เช่น วัตถุประสงค์ของเวลาฟื้นตัว (RTO) และวัตถุประสงค์ของจุดฟื้นตัว (RPO) นั้นใช้ได้จริงและบรรลุผลได้

รักษาแผนการกู้คืนความเสียหาย

หัวใจสำคัญของกลยุทธ์ DR ที่เชื่อถือได้สำหรับปริมาณงานคือ แผน DR แผนของคุณควรเป็นเอกสารการใช้งานซึ่งมีการแก้ไขและปรับปรุงเป็นประจำเมื่อสภาพแวดล้อมของคุณเปลี่ยนแปลง แชร์แผนกับทีมที่เกี่ยวข้อง (ฝ่ายปฏิบัติการ ผู้นำด้านเทคโนโลยี และผู้เกี่ยวข้อง) เป็นประจำ (เช่น ทุก 6 เดือน) เก็บไว้ในที่เก็บข้อมูลที่มีความพร้อมใช้งานสูงและปลอดภัย เช่น OneDrive

ปฏิบัติตามคำแนะนำเหล่านี้เพื่อพัฒนาแผน DR ของคุณ:

  • กำหนดอย่างชัดเจนว่าสิ่งใดคือความเสียหายและจำเป็นต้องเปิดใช้งานแผน DR

    ความเสียหายเป็นปัญหาใหญ่ อาจเกิดจากการหยุดทำงานในภูมิภาค การหยุดทำงานของบริการต่างๆ เช่น Microsoft Entra ID หรือ Azure DNS หรือการโจมตีที่เป็นอันตรายร้ายแรง เช่น การโจมตีด้วยแรนซัมแวร์หรือการโจมตี DDoS

    รวมตัวอย่างของโหมดความล้มเหลวที่ไม่ถือว่าเป็นความเสียหาย เช่น ความพร้อมใช้งานหรือความล้มเหลวของทรัพยากรเดียวในแผน DR ของคุณ เพื่อให้ผู้ปฏิบัติงานไม่เรียกใช้การยกระดับ DR ของตนโดยไม่ได้ตั้งใจ

  • สร้างแผน DR บนเอกสาร FMA ของคุณ ตรวจสอบให้แน่ใจว่าแผน DR ของคุณบันทึกโหมดความล้มเหลวและกลยุทธ์การบรรเทาเหตุขัดข้องที่กำหนดว่าเป็นความเสียหาย หากจำเป็นต้องมีการอัปเดต ให้อัปเดตทั้งแผน DR และเอกสาร FMA ของคุณพร้อมกัน เพื่อให้ถูกต้องเมื่อสภาพแวดล้อมเปลี่ยนแปลงหรือเมื่อการทดสอบพบพฤติกรรมที่ไม่คาดคิด

  • กำหนดบทบาทและความรับผิดชอบภายในทีมดูแลปริมาณงานอย่างชัดเจน และทำความเข้าใจบทบาทภายนอกที่เกี่ยวข้องภายในองค์กรของคุณ หากความเสียหายเกิดจากการหยุดให้บริการภายนอก เช่น Microsoft Entra ID ตรวจสอบให้แน่ใจว่าคุณมีบทบาทที่กำหนดไว้ซึ่งรับผิดชอบในการสื่อสารกับบุคคลภายนอก และสามารถแชร์การอัปเดตกับทีมดูแลปริมาณงานได้ บทบาทควรรวมถึง:

    • ฝ่ายที่รับผิดชอบในการประกาศความเสียหาย
    • ฝ่ายที่รับผิดชอบในการประกาศปิดดำเนินการเกี่ยวกับเหตุการณ์
    • บทบาทการดำเนินงาน
    • บทบาทการทดสอบและการตรวจสอบความถูกต้อง
    • บทบาทการสื่อสารภายในและภายนอก
    • บทบาทผู้นำในการวิเคราะห์ย้อนหลังและสาเหตุที่แท้จริง (RCA)
  • กำหนดพาธการเลื่อนระดับที่ทีมดูแลปริมาณงานต้องปฏิบัติตามเพื่อให้แน่ใจว่าสถานะการกู้คืนได้รับการสื่อสารไปยังผู้เกี่ยวข้อง

  • รวมลำดับที่กำหนดไว้ซึ่งส่วนประกอบของปริมาณงานควรได้รับการกู้คืนเพื่อให้เกิดผลกระทบน้อยที่สุด ตัวอย่างเช่น กู้คืนฐานข้อมูลและรีสตาร์ทโฟลว์ระบบคลาวด์ก่อนที่คุณจะกู้คืนแอปพลิเคชัน

    • ให้รายละเอียดขั้นตอนการกู้คืนส่วนประกอบแต่ละส่วนเพื่อเป็นแนวทางทีละขั้นตอน ใส่ภาพหน้าจอหากเป็นไปได้ และข้อกำหนดเบื้องต้นสำหรับการรันกระบวนงาน ตัวอย่างเช่น แสดงรายการสคริปต์หรือข้อมูลประจำตัวที่จำเป็นที่ต้องรวบรวม

    • กำหนดความรับผิดชอบของทีมเทียบกับความรับผิดชอบของผู้ให้บริการการโฮสต์ระบบคลาวด์ ตัวอย่างเช่น Microsoft มีหน้าที่รับผิดชอบในการคืนค่า PaaS (แพลตฟอร์มเป็นบริการ) แต่คุณมีหน้าที่รับผิดชอบในการเติมน้ำลงในข้อมูลและนำการกำหนดค่าของคุณไปใช้กับบริการ

    • ค้นหาสาเหตุที่แท้จริงของเหตุการณ์และดำเนินการบรรเทาผลกระทบก่อนที่จะเริ่มการกู้คืน ตัวอย่างเช่น ถ้าสาเหตุของเหตุการณ์คือปัญหาด้านความปลอดภัย ให้บรรเทาปัญหานั้นก่อนที่คุณจะกู้คืนระบบที่ได้รับผลกระทบในสภาพแวดล้อมการเฟลโอเวอร์ของคุณ

  • หากคุณต้องการปรับใช้แอปของคุณอีกครั้งในสภาพแวดล้อมเฟลโอเวอร์ ให้ใช้เครื่องมือเพื่อทำให้กระบวนการปรับใช้เป็นอัตโนมัติมากที่สุด ตรวจสอบให้แน่ใจว่าไปป์ไลน์ Azure ของคุณได้รับการปรับใช้ล่วงหน้าและกำหนดค่าอย่างถูกต้องในสภาพแวดล้อมเฟลโอเวอร์ เพื่อให้คุณสามารถเริ่มการปรับใช้ได้ทันที ใช้การปรับใช้งานแบบครบวงจรที่เป็นไปโดยอัตโนมัติ โดยมีช่องทางการอนุมัติด้วยตนเองตามที่จำเป็น เพื่อให้มั่นใจว่ากระบวนการปรับใช้มีความสอดคล้องและมีประสิทธิภาพ เมื่อขั้นตอนของกระบวนการปรับใช้ต้องมีการแทรกแซงด้วยตนเอง ให้จัดทำเอกสารขั้นตอนด้วยตนเอง กำหนดบทบาทและความรับผิดชอบอย่างชัดเจน

  • ทำให้ขั้นตอนเป็นอัตโนมัติมากที่สุดเท่าที่จะทำได้ ใช้ตรรกะการลองใหม่เพื่อหลีกเลี่ยงการเสียเวลากับสคริปต์ที่ติดอยู่กับงานที่เสียหาย เนื่องจากคุณเรียกใช้สคริปต์เหล่านี้ในกรณีฉุกเฉินเท่านั้น คุณจึงไม่ต้องการให้สคริปต์ที่พัฒนาอย่างไม่ถูกต้องสร้างความเสียหายมากขึ้นหรือทำให้กระบวนการกู้คืนของคุณช้าลง

หมายเหตุ

ระบบอัตโนมัติก่อให้เกิดความเสี่ยง ผู้ปฏิบัติงานที่ได้รับการฝึกอบรมจำเป็นต้องตรวจสอบกระบวนการอัตโนมัติอย่างรอบคอบ และเข้าแทรกแซงหากกระบวนการใดๆ ประสบปัญหา เพื่อลดความเสี่ยงที่ระบบอัตโนมัติจะตอบสนองต่อผลบวกลวง โปรดฝึกซ้อมเกี่ยวกับ DR ของคุณอย่างละเอียด ทดสอบทุกขั้นตอนของแผน จำลองการตรวจจับเพื่อสร้างการแจ้งเตือน จากนั้นดำเนินการตามขั้นตอนการกู้คืนทั้งหมด

ดำเนินการฝึกซ้อมการกู้คืนความเสียหาย

การทดสอบ DR ถือเป็นสิ่งสำคัญสำหรับแผน DR ที่ดี อุตสาหกรรมจำนวนมากมีเฟรมเวิร์กด้านการปฏิบัติตามข้อบังคับที่ต้องการการฝึกซ้อมเกี่ยวกับ DR เป็นประจำ ไม่ว่าคุณจะอยู่ในอุตสาหกรรมใด การฝึกซ้อมเกี่ยวกับ DR บ่อยๆ ก็มีความสำคัญต่อความสำเร็จของคุณ

ปฏิบัติตามคำแนะนำเหล่านี้เพื่อการฝึกซ้อมเกี่ยวกับ DR ที่ประสบความสำเร็จ:

  • ดำเนินการฝึกซ้อมเกี่ยวกับ DR ด้านการผลิตอย่างน้อยหนึ่งครั้งต่อปี การฝึกซ้อมหรือการฝึกซ้อมที่ไม่ใช่การทำงานจริงช่วยให้มั่นใจว่าฝ่ายต่างๆ ที่เกี่ยวข้องมีความคุ้นเคยกับบทบาทและความรับผิดชอบของตน การฝึกซ้อมเหล่านี้ยังช่วยให้ผู้ปฏิบัติงานสร้างความคุ้นเคยโดยปฏิบัติตามกระบวนการกู้คืน แต่มีเพียงการฝึกซ้อมด้านการผลิตเท่านั้นที่ทดสอบความถูกต้องของแผน DR และตัววัด RTO และ RPO อย่างแท้จริง ใช้การฝึกซ้อมด้านการผลิตของคุณเพื่อกำหนดเวลากระบวนการกู้คืนสำหรับส่วนประกอบและโฟลว์เพื่อให้แน่ใจว่าเป้าหมาย RTO และ RPO ที่กำหนดไว้สำหรับปริมาณงานของคุณจะบรรลุผลได้ สำหรับฟังก์ชันที่อยู่นอกเหนือการควบคุมของคุณ เช่น การหยุดทำงานของ Microsoft Entra ID โปรดตรวจสอบให้แน่ใจว่าเป้าหมาย RTO และ RPO สำหรับโฟลว์ที่เกี่ยวข้องกับฟังก์ชันเหล่านั้นคำนึงถึงความล่าช้าที่อาจเกิดขึ้นนอกเหนือการควบคุมของคุณ

  • ใช้การฝึกซ้อมเพื่อให้ความรู้แก่ผู้ปฏิบัติงานรายใหม่เกี่ยวกับกระบวนการและขั้นตอนของ DR ผู้ปฏิบัติงานระดับสูงควรใช้เวลาเพื่อให้ผู้ปฏิบัติงานรายใหม่ปฏิบัติหน้าที่ของตน และควรเฝ้าดูโอกาสในการปรับปรุง หากผู้ปฏิบัติงานรายใหม่ลังเลหรือสับสนกับขั้นตอนในกระบวนการ ให้ตรวจสอบขั้นตอนนั้นเพื่อให้แน่ใจว่ามีการเขียนไว้อย่างชัดเจน

ข้อควรพิจารณา

การดำเนินการฝึกซ้อมเกี่ยวกับ DR ด้านการผลิตอาจทำให้เกิดความล้มเหลวร้ายแรงที่ไม่คาดคิดได้ อย่าลืมทดสอบขั้นตอนการกู้คืนในสภาพแวดล้อมที่ไม่ใช่การทำงานจริงในระหว่างการปรับใช้ครั้งแรกของคุณ

ให้เวลาบำรุงรักษาทีมของคุณมากที่สุดเท่าในระหว่างการฝึกซ้อม เมื่อวางแผนเวลาบำรุงรักษา ให้ใช้เมตริกการกู้คืนที่คุณรวบรวมระหว่างการทดสอบเป็นส่วนแบ่งเวลาขั้นต่ำที่จำเป็น

เมื่อการฝึกซ้อมเกี่ยวกับ DR ของคุณพัฒนาขึ้น คุณจะได้เรียนรู้ว่าขั้นตอนใดที่คุณสามารถดำเนินการแบบคู่ขนานได้ และขั้นตอนใดที่คุณต้องดำเนินการตามลำดับ ในช่วงแรกของการซ้อม สมมติว่าทุกขั้นตอนจะต้องดำเนินการตามลำดับ และคุณต้องใช้เวลาเพิ่มเติมในแต่ละขั้นตอนเพื่อจัดการกับปัญหาที่ไม่คาดคิด

ความสามารถในการเฟลโอเวอร์

Microsoft แอปพลิเคชันธุรกิจมอบความสามารถในการต่อเนื่องทางธุรกิจและการกู้คืนจากภัยพิบัติ (BCDR) ให้กับทุกสภาพแวดล้อม การผลิต ใน Dynamics 365 และแอปพลิเคชันซอฟต์แวร์เป็นบริการ (SAAS) Power Platform เรียนรู้วิธีการ Microsoft ช่วยให้มั่นใจได้ว่าข้อมูลการผลิตของคุณมีความยืดหยุ่นระหว่างการหยุดให้บริการในแต่ละภูมิภาค

รายการตรวจสอบความน่าเชื่อถือ

โปรดดูชุดคำแนะนำทั้งหมด