คำแนะนำสำหรับการออกแบบกลยุทธ์การตอบสนองฉุกเฉิน

บทความ
09/11/2024

นำไปใช้กับคำแนะนำรายการตรวจสอบความเป็นเลิศในการดำเนินงานของ Power Platform Well-Architected:

OE:07

พัฒนาแนวทางปฏิบัติการปฏิบัติการฉุกเฉินที่มีประสิทธิผล ตรวจสอบให้แน่ใจว่าปริมาณงานของคุณส่งสัญญาณด้านคุณภาพที่มีความหมาย รวบรวมข้อมูลที่เป็นผลลัพธ์และใช้เพื่อสร้างการแจ้งเตือนที่สามารถดำเนินการได้ซึ่งประกาศใช้การตอบสนองฉุกเฉินผ่านแดชบอร์ดและการสอบถาม กำหนดความรับผิดชอบของมนุษย์อย่างชัดเจน เช่น การหมุนเวียนตามสาย การจัดการเหตุการณ์ การเข้าถึงทรัพยากรฉุกเฉิน และการสืบสวนหลังเหตุการณ์

คู่มือนี้จะอธิบายคำแนะนำในการออกแบบกลยุทธ์การตอบสนองต่อสภาวะฉุกเฉิน เวิร์กโหลดบางอย่างของคุณอาจมีความสำคัญต่อภารกิจ และปัญหาที่เกิดขึ้นตลอดวงจรชีวิตของเวิร์กโหลดอาจรุนแรงพอที่จะรับประกันการประกาศเหตุฉุกเฉินได้ คุณสามารถใช้กระบวนการและขั้นตอนที่มีการควบคุมและมุ่งเน้นอย่างเข้มงวดซึ่งทีมของคุณสามารถปฏิบัติตามได้เพื่อให้แน่ใจว่าปัญหาจะได้รับการจัดการอย่างเป็นระเบียบเรียบร้อย ภาวะฉุกเฉินมักทำให้ระดับความเครียดของทุกคนเพิ่มขึ้น และอาจนำไปสู่สภาพแวดล้อมที่วุ่นวายได้หากทีมของคุณไม่เตรียมตัวมาอย่างดี เพื่อช่วยลดความเครียดและความสับสน ให้ออกแบบกลยุทธ์การตอบสนอง แบ่งปันกลยุทธ์การตอบสนองกับองค์กรของคุณ และดำเนินการฝึกอบรมการตอบสนองฉุกเฉินเป็นประจำ

กลยุทธ์การออกแบบที่สำคัญ

กลยุทธ์การตอบสนองภาวะฉุกเฉินควรเป็นชุดกระบวนการและขั้นตอนที่กำหนดไว้อย่างชัดเจน แต่ละกระบวนการและขั้นตอนควรมีสคริปต์เพื่อให้แน่ใจว่าแต่ละขั้นตอนจะทำให้ทีมของคุณแก้ไขปัญหาได้อย่างรวดเร็วและปลอดภัย เพื่อพัฒนากลยุทธ์การตอบสนองฉุกเฉิน ให้พิจารณาภาพรวมต่อไปนี้:

ข้อกำหนดเบื้องต้น
- พัฒนาระบบการติดตาม
- สร้างแผนการตอบสนองต่อเหตุการณ์
ระยะเหตุการณ์
- การตรวจจับและการกักกัน
- คัดกรอง
ระยะหลังเหตุการณ์
- การวิเคราะห์สาเหตุหลัก (RCA)
- การพิสูจน์หลังเหตุการณ์
กิจกรรมที่กำลังดำเนินอยู่
- การฝึกซ้อมการตอบสนองต่อสภาวะฉุกเฉิน

ส่วนต่อไปนี้ให้คำแนะนำสำหรับแต่ละขั้นตอนเหล่านี้

ระบบการตรวจสอบ

เพื่อให้มีกลยุทธ์การรับมือเหตุฉุกเฉินที่มีประสิทธิภาพ คุณต้องมีระบบตรวจสอบที่แข็งแกร่งหรือแพลตฟอร์มความสามารถในการสังเกตการณ์ แพลตฟอร์มความสามารถในการสังเกตของคุณควรมีลักษณะดังต่อไปนี้

การตรวจสอบแบบองค์รวม: ตรวจดูให้แน่ใจว่าคุณตรวจสอบปริมาณงานของคุณอย่างละเอียดจากมุมมองของการกำหนดค่าและแอปพลิเคชัน และรวมการตรวจสอบโครงสร้างพื้นฐานหากส่วนประกอบของปริมาณงานของคุณโฮสต์อยู่ในระบบคลาวด์หรือในสถานที่ ตรวจสอบให้แน่ใจว่าองค์ประกอบทั้งหมดของเวิร์กโหลดของคุณครอบคลุมโดยกลยุทธ์การตรวจสอบของคุณ ตัวอย่างเช่น หากเวิร์กโหลดของคุณทำงานกับทรัพยากร Azure หรือระบบภายในองค์กร ให้รวมส่วนประกอบเหล่านั้นไว้ในการตรวจสอบของคุณ
การบันทึกแบบละเอียด: เปิดใช้งานการบันทึกแบบละเอียดสำหรับส่วนประกอบของคุณเพื่อช่วยในการตรวจสอบเมื่อคุณจำแนกปัญหา บันทึกโครงสร้างเพื่อให้ง่ายต่อการจัดการ ส่งบันทึกไปยังซิงก์ข้อมูลโดยอัตโนมัติเพื่อเตรียมพร้อมสำหรับการวิเคราะห์
แดชบอร์ดที่มีประโยชน์: สร้างแดชบอร์ดตามโมเดลคุณภาพของคุณที่ปรับให้เหมาะกับแต่ละทีมทั่วทั้งองค์กรของคุณ ทีมต่างๆ มีหน้าที่รับผิดชอบในด้านต่างๆ ของคุณภาพของปริมาณงาน
การแจ้งเตือนที่ดำเนินการได้: สร้างการแจ้งเตือนที่เป็นประโยชน์สำหรับทีมดูแลปริมาณงานของคุณ หลีกเลี่ยงการแจ้งเตือนที่ไม่จำเป็นต้องดำเนินการใดๆ จากทีมของคุณ การแจ้งเตือนประเภทนี้มากเกินไปอาจทำให้ผู้คนเพิกเฉยหรือบล็อคการแจ้งเตือนได้
การแจ้งเตือนอัตโนมัติ: ตรวจสอบให้แน่ใจว่าทีมที่เหมาะสมได้รับการแจ้งเตือนโดยอัตโนมัติซึ่งจำเป็นต้องดำเนินการจากพวกเขา ตัวอย่างเช่น ทีมสนับสนุนระดับ 1 ของคุณควรได้รับการแจ้งเตือนทั้งหมด ในขณะที่วิศวกรความปลอดภัยของคุณควรได้รับการแจ้งเตือนสำหรับเหตุการณ์ด้านความปลอดภัยเท่านั้น

เรียนรู้เพิ่มเติมใน คำแนะนำสำหรับการออกแบบและการสร้างเฟรมเวิร์กการตรวจสอบ

แผนการตอบสนองต่อเหตุการณ์

รากฐานของกลยุทธ์การตอบสนองต่อสภาวะฉุกเฉินคือแผนการตอบสนองต่อเหตุการณ์ เช่นเดียวกับแผนการกู้คืนจากความเสียหาย ให้กำหนดบทบาท ความรับผิดชอบ และขั้นตอนในการตอบสนองต่อเหตุการณ์อย่างชัดเจนและถี่ถ้วน แผนควรเป็นเอกสารควบคุมเวอร์ชันที่ต้องได้รับการตรวจสอบเป็นประจำเพื่อให้แน่ใจว่าเป็นข้อมูลล่าสุด

กำหนดองค์ประกอบต่อไปนี้ในแผนของคุณอย่างชัดเจน

บทบาท

ระบุผู้จัดการตอบสนองต่อเหตุการณ์ บุคคลนี้เป็นเจ้าของเหตุการณ์ตั้งแต่เริ่มต้นจนถึงการแก้ไขจนถึงการวิเคราะห์สาเหตุหลัก ผู้จัดการการตอบสนองต่อเหตุการณ์ช่วยให้แน่ใจว่ามีการปฏิบัติตามกระบวนการและฝ่ายที่เหมาะสมจะได้รับแจ้งในขณะที่ทีมตอบสนองปฏิบัติงาน

ระบุผู้นำการพิสูจน์หลังเหตุการณ์ บุคคลนี้รับประกันว่าจะมีการพิสูจน์หลังเหตุการณ์ทันทีหลังจากเหตุการณ์คลี่คลาย พวกเขาจัดทำรายงานซึ่งช่วยให้คุณนำสิ่งที่ค้นพบออกมาจากเหตุการณ์ไปใช้ได้

กระบวนการและขั้นตอนต่างๆ

ทีมงานดูแลปริมาณงานของคุณควรกำหนดและทำความเข้าใจกับเกณฑ์กรณีฉุกเฉิน เมื่อทีมของคุณพิจารณาว่ากรณีนี้รุนแรง คุณสามารถประกาศความเสียหายและเริ่มแผนการกู้คืนความเสียหายได้ ในกรณีที่รุนแรงน้อยกว่า ปัญหาอาจไม่เป็นไปตามเกณฑ์ของภัยพิบัติ แต่คุณควรพิจารณาปัญหาเป็นเหตุฉุกเฉินซึ่งจำเป็นต้องเริ่มแผนรับมือเหตุฉุกเฉิน เหตุฉุกเฉินอาจเป็นเรื่องภายในกับปริมาณงานของคุณ เช่น จุดบกพร่องในโค้ดแอปพลิเคชันของคุณ หรือเป็นผลจากปัญหาเกี่ยวกับการขึ้นต่อกันของปริมาณงานของคุณ เช่น ความพร้อมใช้งานของ API หรือฐานข้อมูล เหตุฉุกเฉินอาจเกิดจากการที่ซัพพลายเออร์ของคุณหยุดทำงาน (เช่น ปัญหาเกี่ยวกับ Microsoft Entra ID หรือ Power Platform) ทีมสนับสนุนต้องสามารถระบุได้ว่าปัญหาตรงตามเกณฑ์ฉุกเฉินหรือไม่ แม้ว่าทีมจะไม่สามารถมองเห็นปัญหาพื้นฐานก็ตาม

กำหนดแผนการสื่อสารและการยกระดับอย่างแม่นยำ ตรวจสอบให้แน่ใจว่าสมาชิกทีมสนับสนุนระดับ 1 ของคุณสามารถติดต่อทีมที่เหมาะสมสำหรับปัญหาที่บานปลายได้อย่างง่ายดาย

รายการอื่น ๆ ที่จะรวม

จัดทำเอกสารเครื่องมือมาตรฐานทั้งหมดที่ใช้ในระหว่างเหตุการณ์สำหรับการสื่อสารภายใน เช่น Microsoft Teams และสำหรับการติดตามกิจกรรมตลอดระยะเวลาของเหตุการณ์ เช่น เครื่องมือออกตั๋วหรือเครื่องมือวางแผนงานค้าง

จัดทำเอกสารรับรองฉุกเฉินของคุณหรือที่เรียกว่าบัญชีที่เข้าถึงได้ในกรณีฉุกเฉิน รวมคำแนะนำทีละขั้นตอนที่อธิบายวิธีการใช้งาน

สร้างคำแนะนำในการฝึกซ้อมการตอบสนองกรณีฉุกเฉิน และเก็บบันทึกเวลาทำการฝึกซ้อม

จัดทำเอกสารมาตรการทางกฎหมายหรือข้อบังคับที่จำเป็น เช่น การสื่อสารการละเมิดข้อมูล

การตรวจจับและกักกันเหตุการณ์

เมื่อคุณมีระบบตรวจสอบที่ออกแบบมาอย่างดีซึ่งจะตรวจสอบความผิดปกติและแจ้งเตือนโดยอัตโนมัติ คุณจะสามารถตรวจพบปัญหาและระบุระดับความรุนแรงได้อย่างรวดเร็ว หากถือเป็นกรณีฉุกเฉิน ก็สามารถเริ่มแผนได้ ในบางกรณี ทีมสนับสนุนจะไม่ได้รับแจ้งผ่านระบบตรวจสอบ ผู้ใช้อาจรายงานปัญหาเพื่อสนับสนุนโดยใช้ช่องทางการสื่อสารของทีมสนับสนุน หรือพวกเขาอาจติดต่อบุคคลที่พวกเขาทำงานด้วยเป็นประจำหรือคนที่พวกเขารู้ว่ากำลังทำงานกับ Power Platform เช่น ผู้ดูแลระบบบริการ Power Platform หรือทีม Center of Excellence ไม่ว่าทีมสนับสนุนจะได้รับการแจ้งเตือนอย่างไร พวกเขาควรทำตามขั้นตอนเดียวกันเสมอเพื่อตรวจสอบปัญหาและระบุระดับความรุนแรง การเบี่ยงเบนไปจากแผนการตอบสนองต่อเหตุการณ์อาจเพิ่มความเครียดและความสับสน

คัดกรอง

ขั้นตอนแรกในการแก้ไขปัญหาคือการระบุองค์ประกอบของปริมาณงานที่เป็นสาเหตุของปัญหา ขั้นตอนที่คุณปฏิบัติตามในระหว่างการคัดกรองจะขึ้นอยู่กับประเภทของปัญหา ทีมสนับสนุนเวิร์กโหลดบางส่วนควรสร้างขั้นตอนสำหรับเหตุการณ์ที่เกี่ยวข้องกับงาน ตัวอย่างเช่น ทีมรักษาความปลอดภัยควรคัดแยกปัญหาด้านความปลอดภัย และควรปฏิบัติตามสคริปต์ที่พวกเขาพัฒนาขึ้น สิ่งสำคัญคือทีมจะต้องปฏิบัติตามสคริปต์ที่กำหนดไว้อย่างดีขณะทำงานผ่านความพยายามในการคัดแยก สคริปต์เหล่านี้ควรเป็นคำแนะนำทีละขั้นตอนที่มีกระบวนการย้อนกลับ เพื่อเลิกทำการเปลี่ยนแปลงที่ไม่ได้ผลหรืออาจทำให้เกิดปัญหาอื่นๆ หลังจากที่ปัญหาได้รับการแก้ไขแล้ว ให้ปฏิบัติตามกระบวนการที่กำหนดไว้อย่างดีเพื่อนำส่วนประกอบที่ได้รับผลกระทบกลับเข้าสู่เส้นทางโฟลว์ปริมาณงานอย่างปลอดภัย

การรายงานการวิเคราะห์สาเหตุหลัก

ผู้รับผิดชอบเหตุการณ์หรือผู้ที่ทำงานใกล้ชิดกับพวกเขาควรสร้างรายงานการวิเคราะห์สาเหตุหลัก (RCA) กลยุทธ์นี้รับประกันการบัญชีของเหตุการณ์ที่แม่นยำ โดยทั่วไป องค์กรจะมีเทมเพลต RCA ที่กำหนดไว้พร้อมหลักเกณฑ์เกี่ยวกับวิธีการนำเสนอข้อมูล และประเภทของข้อมูลที่สามารถหรือไม่สามารถแชร์ได้ หากคุณต้องการสร้างเทมเพลตและแนวทางปฏิบัติของคุณเอง ให้ตรวจสอบให้แน่ใจว่าผู้เกี่ยวข้องตรวจสอบและอนุมัติ

การพิสูจน์หลังเหตุการณ์

บุคคลที่เป็นกลางควรนำไปสู่การพิสูจน์หลังเหตุการณ์ที่ไม่มีตำหนิ ในการพิสูจน์หลังเหตุการณ์ ทุกคนจะแชร์สิ่งที่ตนค้นพบจากเหตุการณ์หนึ่ง แต่ละทีมที่เกี่ยวข้องกับการตอบสนองต่อเหตุการณ์ควรเป็นตัวแทนของบุคคลที่ทำงานเกี่ยวกับเหตุการณ์ บุคคลเหล่านั้นควรมาที่เซสชันที่เตรียมไว้พร้อมตัวอย่างของการดำเนินการที่ประสบความสำเร็จและส่วนที่สามารถปรับปรุงได้ เซสชันนี้ไม่ใช่ฟอรัมสำหรับกล่าวโทษสำหรับเหตุการณ์หรือปัญหาที่อาจเกิดขึ้นระหว่างการตอบสนอง ผู้นำการพิสูจน์หลังเหตุการณ์ควรออกจากการประชุมพร้อมรายการปฏิบัติการที่ชัดเจนซึ่งเน้นไปที่การปรับปรุง เช่น

การปรับปรุงแผนการตอบสนอง กระบวนการหรือขั้นตอนอาจจำเป็นต้องได้รับการประเมินใหม่และเขียนใหม่เพื่อให้สามารถจับภาพการกระทำที่เหมาะสมได้ดีขึ้น
การปรับปรุงระบบการตรวจสอบ เกณฑ์อาจต้องได้รับการประเมินใหม่เพื่อตรวจจับประเภทเหตุการณ์ที่เฉพาะเจาะจงก่อนหน้านี้ หรืออาจต้องมีการดำเนินการติดตามใหม่เพื่อตรวจจับพฤติกรรมที่ไม่ได้ถูกนำมาพิจารณา
การปรับปรุงปริมาณงาน เหตุการณ์ดังกล่าวอาจเปิดเผยช่องโหว่ในปริมาณงานที่ต้องได้รับการแก้ไขอย่างถาวร

ข้อควรพิจารณา

กลยุทธ์การตอบสนองต่อเหตุการณ์ฉุกเฉินของคุณควรสอดคล้องกับภาพรวมของกลยุทธ์การสนับสนุน Power Platform อย่างใกล้ชิด ทำงานร่วมกับผู้ดูแลระบบ Power Platform และทีม Center of Excellence เพื่อหารือเกี่ยวกับตัวเลือกและกระบวนการสนับสนุนและการตอบสนองต่อเหตุฉุกเฉินที่อาจกำหนดไว้แล้ว

เมื่อคุณกำหนดกระบวนการสนับสนุนและพาธการเลื่อนระดับ สิ่งสำคัญคือต้องจัดหมวดหมู่โซลูชันที่สร้างขึ้นตามความสำคัญ แนวทางปฏิบัตินี้ช่วยให้คุณสร้างกระบวนการที่ทำให้แน่ใจว่าแอปพลิเคชันที่สำคัญมีตัวป้องกันที่จำเป็นเพื่อรองรับ ในขณะที่ไม่ขัดขวางนวัตกรรมของสถานการณ์การทำงานจริงหรือทำให้ทีมตอบสนองต่อเหตุการณ์ของคุณทำงานหนัก เมื่อคุณกำหนดรูปแบบการสนับสนุนของคุณ ให้คิดถึงพาธการสำเร็จด้วย โซลูชันอาจเริ่มต้นเพียงต้องการการสนับสนุนระดับประสิทธิภาพการทำงาน แต่เติบโตในส่วนฟังก์ชันการทำงานหรือฐานผู้ใช้ที่ต้องการการสนับสนุนในระดับที่สูงขึ้น กำหนดวิธีที่ผู้สร้างสามารถขอการสนับสนุนที่เป็นทางการมากขึ้นและเปลี่ยนโซลูชันไปสู่สภาพแวดล้อมที่สนับสนุนได้

การอำนวยความสะดวกของ Power Platform

Power Platform ผสานรวมกับ Application Insights ซึ่งเป็นส่วนหนึ่งของระบบนิเวศ Azure Monitor ใช้การผสานรวมนี้ด้วย

รับการวัดและส่งข้อมูลทางไกลในการวินิจฉัยและประสิทธิภาพที่บันทึกโดยแพลตฟอร์ม Dataverse ใน Application Insights คุณสามารถสมัครรับการวัดและส่งข้อมูลทางไกลเกี่ยวกับการดำเนินการที่แอปพลิเคชันดำเนินการบนฐานข้อมูล Dataverse ของคุณและภายในแอปแบบจำลอง การวัดและส่งข้อมูลทางไกลนี้จะให้ข้อมูลที่คุณสามารถใช้เพื่อวินิจฉัยและแก้ไขปัญหาที่เกี่ยวข้องกับข้อผิดพลาดและประสิทธิภาพ
เชื่อมต่อแอปพื้นที่ทำงานกับ Application Insights คุณสามารถใช้การวิเคราะห์เหล่านี้เพื่อวินิจฉัยปัญหาและทำความเข้าใจสิ่งที่ผู้ใช้ทำกับแอปของคุณ คุณสามารถรวบรวมข้อมูลเพื่อช่วยในการตัดสินใจทางธุรกิจที่ดีขึ้น และปรับปรุงคุณภาพแอปของคุณ
กำหนดค่า การวัดและส่งข้อมูลทางไกลของ Power Automate เพื่อส่งเข้าสู่ Application Insights ตัวอย่างเช่น เพื่อตรวจสอบการดำเนินการของโฟลว์ระบบคลาวด์และสร้างการแจ้งเตือนสำหรับความล้มเหลวในการเรียกใช้โฟลว์ระบบคลาวด์
บันทึกข้อมูลการวัดและส่งข้อมูลทางไกลจาก เอเจนต์ Microsoft Copilot Studio ของคุณเพื่อใช้ใน Azure Application Insights คุณสามารถใช้การวัดและส่งข้อมูลทางไกลนี้เพื่อตรวจสอบข้อความและเหตุการณ์ที่บันทึกไว้ซึ่งส่งไปและกลับจากเอเจนต์ หัวข้อที่จะทริกเกอร์ระหว่างการสนทนาของผู้ใช้ และเหตุการณ์การวัดและส่งข้อมูลทางไกลแบบกำหนดเองที่สามารถส่งได้จากหัวข้อของคุณ

Application Insights เป็นโซลูชันที่ครอบคลุมสำหรับการรวบรวม วิเคราะห์ และตอบสนองต่อข้อมูลการตรวจสอบจากสภาพแวดล้อมระบบคลาวด์และในสถานที่ ประกอบด้วยแพลตฟอร์มการแจ้งเตือนที่มีประสิทธิภาพซึ่งคุณสามารถกำหนดค่าการแจ้งเตือนอัตโนมัติและการดำเนินการอื่นๆ

ชุดระบบอัตโนมัติ Power Platform คือชุดเครื่องมือที่เร่งการใช้และสนับสนุน Power Automate สำหรับเดสก์ท็อป สำหรับโครงการระบบอัตโนมัติ ชุดเครื่องมือนี้มีเครื่องมือที่ช่วยคุณจัดการโครงการระบบอัตโนมัติและตรวจสอบโครงการ เพื่อประมาณการเงินที่ประหยัดและผลตอบแทนจากการลงทุน (ROI) ส่วนหนึ่งของชุดระบบอัตโนมัติคือ ศูนย์ควบคุม ซึ่งเสริมคุณลักษณะตรวจสอบการเรียกใช้โฟลว์เดสก์ท็อปที่มีอยู่ จุดสนใจหลักของศูนย์ควบคุมคือมุมมองระบบจัดการสำหรับนักวิเคราะห์และองค์กรที่สนับสนุนในการตรวจสอบ ดำเนินการ และแจ้งเตือนเมื่อจำเป็น

ขั้นตอนถัดไป

รายการตรวจสอบความเป็นเลิศในการดำเนินงาน

แชร์ผ่าน

คำแนะนำสำหรับการออกแบบกลยุทธ์การตอบสนองฉุกเฉิน

กลยุทธ์การออกแบบที่สำคัญ

ระบบการตรวจสอบ

แผนการตอบสนองต่อเหตุการณ์

บทบาท

กระบวนการและขั้นตอนต่างๆ

รายการอื่น ๆ ที่จะรวม

การตรวจจับและกักกันเหตุการณ์

คัดกรอง

การรายงานการวิเคราะห์สาเหตุหลัก

การพิสูจน์หลังเหตุการณ์

ข้อควรพิจารณา

การอำนวยความสะดวกของ Power Platform

ขั้นตอนถัดไป

คำติชม

แหล่งทรัพยากรเพิ่มเติม

แชร์ผ่าน

คำแนะนำสำหรับการออกแบบกลยุทธ์การตอบสนองฉุกเฉิน

กลยุทธ์การออกแบบที่สำคัญ

ระบบการตรวจสอบ

แผนการตอบสนองต่อเหตุการณ์

บทบาท

กระบวนการและขั้นตอนต่างๆ

รายการอื่น ๆ ที่จะรวม

การตรวจจับและกักกันเหตุการณ์

คัดกรอง

การรายงานการวิเคราะห์สาเหตุหลัก

การพิสูจน์หลังเหตุการณ์

ข้อควรพิจารณา

การอำนวยความสะดวกของ Power Platform

ข้อมูลที่เกี่ยวข้อง

ขั้นตอนถัดไป

คำติชม

แหล่งทรัพยากรเพิ่มเติม