แชร์ผ่าน


คำแนะนำสำหรับการดำเนินการวิเคราะห์โหมดความล้มเหลว

นำไปใช้กับคำแนะนำรายการตรวจสอบความน่าเชื่อถือของ Power Platform Well-Architected:

RE:03 ใช้การวิเคราะห์โหมดความล้มเหลว (FMA) เพื่อระบุและจัดลำดับความสำคัญของความล้มเหลวที่อาจเกิดขึ้นในส่วนประกอบของโซลูชัน ดำเนินการ FMA เพื่อช่วยคุณประเมินความเสี่ยงและผลกระทบของโหมดความล้มเหลวแต่ละโหมด กำหนดวิธีที่ปริมาณงานตอบสนองและกู้คืน

คู่มือนี้อธิบายแนวปฏิบัติที่ดีที่สุดในการดำเนินการวิเคราะห์โหมดความล้มเหลว (FMA) สำหรับปริมาณงานของคุณ FMA คือแนวปฏิบัติในการระบุจุดที่อาจเกิดความล้มเหลวภายในปริมาณงานและโฟลว์ที่เกี่ยวข้อง และวางแผนการดำเนินการลดผลกระทบ ในแต่ละขั้นตอนของโฟลว์ คุณจะระบุรัศมีการกระจายของความล้มเหลวหลายประเภท ซึ่งช่วยให้คุณออกแบบปริมาณงานใหม่หรือปรับโครงสร้างปริมาณงานที่มีอยู่ใหม่เพื่อลดผลกระทบของความล้มเหลวในวงกว้าง

หลักสำคัญของ FMA คือความล้มเหลวจะเกิดขึ้นไม่ว่าคุณจะใช้ความยืดหยุ่นกี่ชั้นก็ตาม สภาพแวดล้อมที่ซับซ้อนมากขึ้นต้องเผชิญกับความล้มเหลวประเภทต่างๆ มากขึ้น ด้วยความเป็นจริงนี้ FMA ช่วยให้คุณสามารถออกแบบปริมาณงานของคุณให้ทนทานต่อความล้มเหลวเกือบทุกประเภท และกู้คืนได้อย่างสมบูรณ์เมื่อเกิดความล้มเหลว

หากคุณข้าม FMA ไปเลยหรือทำการวิเคราะห์ที่ไม่สมบูรณ์ ปริมาณงานของคุณจะมีความเสี่ยงที่ทำให้เกิดพฤติกรรมที่ไม่คาดคิดและการหยุดทำงานที่อาจเกิดขึ้นจากการออกแบบที่ไม่เหมาะสม

คำนิยาม

เงื่อนไข ข้อกำหนด
โหมดความล้มเหลว ชนิดของปัญหาที่อาจทำให้ส่วนประกอบของปริมาณงานตั้งแต่หนึ่งรายการขึ้นไปลดระดับลงหรือได้รับผลกระทบอย่างรุนแรงจนถึงจุดที่ไม่พร้อมใช้งาน
การแก้ไข กิจกรรมที่คุณระบุเพื่อแก้ไขปัญหาทั้งเชิงรุกหรือเชิงรับ
การตรวจหา ข้อมูลและกระบวนการตรวจสอบและแจ้งเตือนแอปของคุณ

กลยุทธ์การออกแบบที่สำคัญ

ในบริบทของ FMA การทำความเข้าใจข้อกำหนดเบื้องต้นเป็นสิ่งสำคัญ เริ่มต้นด้วยการทบทวนและดำเนินการตามคำแนะนำในการระบุโฟลว์ โดยจัดลำดับความสำคัญตามความวิพากษ์วิจารณ์ สิ่งประดิษฐ์ข้อมูลของคุณมีบทบาทสำคัญในการอธิบายเส้นทางข้อมูลภายในโฟลว์เหล่านี้ เมื่อคุณเจาะลึกแนวทาง FMA ให้มุ่งเน้นไปที่การวางแผนองค์ประกอบสำหรับโฟลว์ที่สำคัญ การระบุการขึ้นต่อกัน (ทั้งภายในและภายนอก) และการกำหนดกลยุทธ์การลดผลกระทบ

ข้อกำหนดเบื้องต้น

ตรวจสอบและปฏิบัติตามคำแนะนำในการระบุและให้คะแนนโฟลว์ ซึ่งจะถือว่าคุณได้ระบุและจัดลำดับความสำคัญของโฟลว์ผู้ใช้และระบบตามความสำคัญ

ข้อมูลที่คุณรวบรวมและส่วนที่คุณสร้างขึ้นในงานของคุณจะให้คำอธิบายที่เป็นรูปธรรมเกี่ยวกับเส้นทางข้อมูลของคุณที่เกี่ยวข้องตลอดโฟลว์ เพื่อให้งาน FMA ของคุณประสบความสำเร็จ ความแม่นยำและความทั่วถึงในสิ่งประดิษฐ์ของคุณเป็นสิ่งสำคัญ

แนวทาง FMA

หลังจากที่คุณกำหนดโฟลว์ที่สำคัญแล้ว คุณสามารถวางแผนส่วนประกอบที่ต้องใช้ได้ จากนั้น ทำตามขั้นตอนแต่ละขั้นตอนเพื่อระบุการขึ้นต่อกัน รวมถึงบริการของบริษัทอื่นและจุดที่อาจเกิดความล้มเหลว และวางแผนกลยุทธ์การบรรเทาผลกระทบของคุณ

ย่อยปริมาณงาน

เมื่อคุณเปลี่ยนจากแนวคิดไปสู่การออกแบบ คุณจะต้องระบุประเภทส่วนประกอบที่จำเป็นต่อการสนับสนุนปริมาณงานของคุณ ปริมาณงานของคุณจะเป็นตัวกำหนดองค์ประกอบที่จำเป็นที่คุณต้องวางแผน

หลังจากที่คุณสร้างการออกแบบสถาปัตยกรรมเริ่มต้นแล้ว คุณสามารถซ้อนทับโฟลว์ของคุณเพื่อระบุส่วนประกอบที่ไม่ต่อเนื่องที่ใช้ในโฟลว์เหล่านั้น และสร้างรายการหรือไดอะแกรมเวิร์กโฟลว์ที่อธิบายโฟลว์และส่วนประกอบต่างๆ เพื่อให้เข้าใจถึงการวิพากษ์วิจารณ์ของส่วนประกอบ ให้ใช้ข้อกำหนดการวิพากษ์วิจารณ์ที่คุณได้กำหนดให้กับโฟลว์ พิจารณาผลกระทบของการทำงานผิดพลาดของส่วนประกอบต่อโฟลว์ของคุณ

ระบุการขึ้นต่อกัน

ระบุการขึ้นต่อกันของปริมาณงานของคุณเพื่อทำการวิเคราะห์จุดล้มเหลวจุดเดียว การแยกย่อยปริมาณงานและโฟลว์การซ้อนทับจะให้ข้อมูลเชิงลึกเกี่ยวกับการขึ้นต่อกันทั้งภายในและภายนอกของปริมาณงาน

การขึ้นต่อกันภายในเป็นส่วนประกอบในขอบเขตปริมาณงานที่จำเป็นสำหรับปริมาณงานในการทำงาน การพึ่งพาภายในโดยทั่วไป ได้แก่ API หรือโซลูชันการจัดการข้อมูลลับ/คีย์ เช่น Azure Key Vault สำหรับการขึ้นต่อกันเหล่านี้ ให้เก็บข้อมูลความน่าเชื่อถือ เช่น ข้อตกลงระดับการให้บริการ (SLA) และขีดจำกัดการปรับขนาด การขึ้นต่อกันภายนอกเป็นส่วนประกอบที่จำเป็นนอกขอบเขตของปริมาณงาน เช่น แอปพลิเคชันอื่นหรือบริการของบริษัทอื่น การพึ่งพาภายนอกโดยทั่วไปจะรวมถึงโซลูชันการตรวจสอบสิทธิ์ เช่น Microsoft Entra ID และโครงสร้างพื้นฐาน Power Platform

ระบุและจัดทำเอกสารการขึ้นต่อกันในปริมาณงานของคุณ และรวมไว้ในเอกสารประกอบโฟลว์ของคุณ

จุดล้มเหลว

ในโฟลว์วิกฤตของปริมาณงานของคุณ ให้พิจารณาแต่ละส่วนประกอบและพิจารณาว่าส่วนประกอบนั้นและการขึ้นต่อกันของส่วนประกอบนั้นอาจได้รับผลกระทบจากโหมดความล้มเหลวอย่างไร โปรดจำไว้ว่ามีโหมดความล้มเหลวมากมายที่ต้องพิจารณาเมื่อวางแผนความยืดหยุ่นและการฟื้นตัว ส่วนประกอบตัวใดตัวหนึ่งอาจได้รับผลกระทบจากโหมดความล้มเหลวมากกว่าหนึ่งโหมดในเวลาใดก็ตาม โหมดความล้มเหลวเหล่านี้ ได้แก่

  • การหยุดทำงานในระดับภูมิภาค: ภูมิภาค Power Platform หรือ Azure ทั้งหมดไม่พร้อมใช้งาน
  • บริการขัดข้อง: บริการ Power Platform หรือ Azure หนึ่งรายการขึ้นไปไม่พร้อมใช้งาน
  • การปฏิเสธการให้บริการแบบกระจาย (DDoS) หรือการโจมตีที่เป็นอันตรายอื่น ๆ
  • การกำหนดค่าแอปหรือส่วนประกอบไม่ถูกต้อง
  • ข้อผิดพลาดของตัวดำเนินการ
  • การหยุดซ่อมบำรุงรักษาตามแผน
  • การโอเวอร์โหลดของส่วนประกอบ

พิจารณาความน่าจะเป็นของโหมดความล้มเหลวแต่ละประเภท บางอย่างไม่น่าเป็นไปได้อย่างมาก เช่น การหยุดทำงานในหลายโซนหรือหลายภูมิภาค และการเพิ่มการวางแผนบรรเทาผลกระทบนอกเหนือจากความซ้ำซ้อนไม่ใช่การใช้ทรัพยากรและเวลาที่ดี

การแก้ไข

กลยุทธ์การบรรเทาผลกระทบแบ่งออกเป็นสองประเภทกว้างๆ ได้แก่ การสร้างความยืดหยุ่นมากขึ้น และการออกแบบเพื่อประสิทธิภาพที่ลดลง

การสร้างความยืดหยุ่นมากขึ้นหมายถึงการทำให้แน่ใจว่าการออกแบบแอปพลิเคชันของคุณเป็นไปตามแนวทางปฏิบัติที่ดีที่สุดเพื่อความทนทาน ตัวอย่างเช่น การแบ่งแอปพลิเคชันขนาดใหญ่ออกเป็นแอปและไมโครเซอร์วิสที่แยกออกมา และใช้การกำหนดค่าความยืดหยุ่นที่มีให้โดยแพลตฟอร์ม เช่น นโยบายการลองใหม่ สำหรับข้อมูลเพิ่มเติม โปรดดูที่คำแนะนำสำหรับความซ้ำซ้อนและข้อแนะนำในการดูแลรักษาตนเอง

หากต้องการออกแบบประสิทธิภาพที่ลดลง ให้ระบุจุดความล้มเหลวที่อาจเกิดขึ้นซึ่งอาจปิดการใช้งานองค์ประกอบอย่างน้อยหนึ่งรายการในโฟลว์ของคุณ แต่อย่าปิดการใช้งานโฟลว์นั้นโดยสมบูรณ์ เพื่อรักษาฟังก์ชันการทำงานของโฟลว์ตั้งแต่ต้นทางถึงปลายทาง คุณอาจต้องเปลี่ยนเส้นทางตั้งแต่หนึ่งขั้นตอนขึ้นไปไปยังส่วนประกอบอื่น หรือยอมรับว่าส่วนประกอบที่ล้มเหลวเรียกใช้ฟังก์ชัน ดังนั้นฟังก์ชันดังกล่าวจะไม่พร้อมใช้งานในประสบการณ์ผู้ใช้อีกต่อไป หากต้องการกลับไปยังตัวอย่างแอปพลิเคชันอีคอมเมิร์ซ ส่วนประกอบที่ล้มเหลว เช่น ไมโครเซอร์วิสอาจทำให้กลไกการแนะนำของคุณไม่พร้อมใช้งาน แต่ลูกค้ายังคงสามารถค้นหาผลิตภัณฑ์และทำธุรกรรมให้เสร็จสมบูรณ์ได้

คุณต้องวางแผนการบรรเทาผลกระทบเกี่ยวกับการขึ้นต่อกันด้วย การพึ่งพาที่แข็งแกร่งมีบทบาทสำคัญในฟังก์ชันและความพร้อมใช้งานของแอปพลิเคชัน หากไม่มีหรือพบความผิดปกติ อาจส่งผลกระทบอย่างมีนัยสำคัญ การไม่มีการพึ่งพาที่ไม่รัดกุมอาจส่งผลต่อคุณลักษณะเฉพาะเท่านั้น และไม่ส่งผลต่อความพร้อมใช้งานโดยรวม ความแตกต่างนี้สะท้อนถึงต้นทุนในการรักษาความสัมพันธ์ของความพร้อมใช้งานสูงระหว่างบริการและการขึ้นต่อกันของบริการ จำแนกประเภทการขึ้นต่อกันว่าสูงหรือต่ำ เพื่อช่วยคุณระบุส่วนประกอบที่จำเป็นต่อแอปพลิเคชัน

หากแอปพลิเคชันมีการขึ้นต่อกันอย่างมากซึ่งไม่สามารถทำงานได้หากไม่มี เป้าหมายความพร้อมใช้งานและการกู้คืนของการขึ้นต่อกันเหล่านี้ควรสอดคล้องกับเป้าหมายของแอปพลิเคชันนั้นเอง หากวงจรการใช้งานของแอปพลิเคชันมีความสัมพันธ์อย่างใกล้ชิดกับวงจรการใช้งานของการขึ้นต่อกัน ความคล่องตัวในการดำเนินงานของแอปพลิเคชันอาจถูกจำกัด โดยเฉพาะอย่างยิ่งสำหรับการเปิดตัวใหม่

การตรวจหา

การตรวจจับความล้มเหลวถือเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าคุณได้ระบุจุดความล้มเหลวในการวิเคราะห์อย่างถูกต้อง และวางแผนกลยุทธ์การลดผลกระทบอย่างเหมาะสม การตรวจจับในบริบทนี้หมายถึงการตรวจสอบโครงสร้างพื้นฐาน ข้อมูล และแอปพลิเคชันของคุณ และการแจ้งเตือนเมื่อเกิดปัญหา ตรวจจับอัตโนมัติให้มากที่สุดเท่าที่จะเป็นไปได้ และสร้างความซ้ำซ้อนในกระบวนการปฏิบัติงานของคุณเพื่อให้แน่ใจว่าการแจ้งเตือนจะถูกตรวจจับอยู่เสมอและตอบสนองเร็วพอที่จะตอบสนองความต้องการทางธุรกิจของคุณ สำหรับข้อมูลเพิ่มเติม โปรดดูคำแนะนำสำหรับการตรวจสอบ

ผลที่ได้

สำหรับผลลัพธ์ของการวิเคราะห์ ให้สร้างชุดเอกสารที่สื่อสารสิ่งที่คุณค้นพบได้อย่างมีประสิทธิภาพ การตัดสินใจที่คุณทำโดยสัมพันธ์กับองค์ประกอบโฟลว์และการบรรเทาผลกระทบ และผลกระทบของความล้มเหลวต่อปริมาณงานของคุณ

ในการวิเคราะห์ของคุณ ให้จัดลำดับความสำคัญของโหมดความล้มเหลวและกลยุทธ์การบรรเทาผลกระทบที่คุณระบุตามความรุนแรงและโอกาส ใช้การจัดลำดับความสำคัญนี้เพื่อโฟกัสไปที่คู่มือของคุณในโหมดความล้มเหลวที่เกิดขึ้นทั่วไปและรุนแรงเพียงพอที่จะรับประกันการใช้เวลา ความพยายาม และทรัพยากรในการออกแบบกลยุทธ์การบรรเทาผลกระทบ ตัวอย่างเช่น อาจมีโหมดความล้มเหลวบางโหมดที่เกิดหรือตรวจพบได้ยากมาก การออกแบบกลยุทธ์การบรรเทาผลกระทบโดยรอบไม่คุ้มค่ากับต้นทุน

โปรดดูตารางตัวอย่างสำหรับจุดเริ่มต้นของคู่มือ

ในระหว่างการฝึก FMA เบื้องต้น เอกสารที่คุณจัดทำส่วนใหญ่จะเป็นการวางแผนเชิงทฤษฎี เอกสาร FMA ควรได้รับการตรวจสอบและอัปเดตเป็นประจำเพื่อให้แน่ใจว่าเอกสารเหล่านั้นมีข้อมูลล่าสุดเกี่ยวกับปริมาณงานของคุณ การทดสอบความโกลาหลและประสบการณ์จริงจะช่วยให้คุณสามารถปรับแต่งการวิเคราะห์เมื่อเวลาผ่านไป

ตัวอย่างเช่น

ตารางต่อไปนี้แสดงตัวอย่าง FMA สำหรับแอปพลิเคชันค่าใช้จ่ายที่โฮสต์เป็นแอปพื้นที่ทำงาน Power Apps ที่มีแบ็กเอนด์ Microsoft Dataverse และ API ที่โฮสต์ใน APIM เพื่อโต้ตอบกับระบบของบุคคลที่สาม

ขั้นตอนของผู้ใช้: เข้าสู่ระบบของผู้ใช้ การส่งการเรียกร้องค่าใช้จ่าย และการโต้ตอบกับรายงานค่าใช้จ่าย

คอมโพเนนต์ ความเสี่ยง ความเป็นไปได้ ผลกระทบ/การบรรเทาผลกระทบ/หมายเหตุ การหยุดทำงาน
Microsoft Entra ID การหยุดบริการ ตํ่า การหยุดทำงานของปริมาณงานเต็มรูปแบบ การขึ้นต่อกันกับ Microsoft ในการแก้ไข เต็ม
Microsoft Entra ID การกำหนดค่าที่ผิดพลาด Medium ผู้ใช้ไม่สามารถลงชื่อเข้าใช้ได้ ไม่มีผลกระทบต่อดาวน์สตรีม ฝ่ายช่วยเหลือรายงานปัญหาการกำหนดค่าไปยังทีมข้อมูลประจำตัว None
Power Apps การหยุดบริการ ตํ่า การหยุดทำงานเต็มรูปแบบสำหรับผู้ใช้ภายนอก การขึ้นต่อกันกับ Microsoft ในการแก้ไข เต็ม
Power Apps การหยุดทำงานในระดับภูมิภาค ต่ำมาก การหยุดทำงานเต็มรูปแบบสำหรับผู้ใช้ภายนอก การขึ้นต่อกันกับ Microsoft ในการแก้ไข เต็ม
Power Apps การโจมตีแบบ DDoS Medium แนวโน้มในการหยุดชะงัก Microsoft จัดการการป้องกัน DDoS (L3 และ L4) แนวโน้มในการหยุดทำงานบางส่วน
Dataverse การหยุดบริการ ตํ่า การหยุดทำงานของปริมาณงานเต็มรูปแบบ การขึ้นต่อกันกับ Microsoft ในการแก้ไข เต็ม
Dataverse การหยุดทำงานในระดับภูมิภาค ต่ำมาก กลุ่มการเฟลโอเวอร์อัตโนมัติทำให้เกิดความล้มเหลวในภูมิภาครอง อาจเกิดการหยุดทำงานระหว่างการเฟลโอเวอร์ วัตถุประสงค์เวลาฟื้นตัว (RTO) และวัตถุประสงค์จุดฟื้นตัว (RPO) ที่จะกำหนดในระหว่างการทดสอบความน่าเชื่อถือ แนวโน้มเต็มรูปแบบ
Dataverse การโจมตีที่เป็นอันตราย (การแทรกโค้ด) Medium ความเสี่ยงน้อยที่สุด อาจมีความเสี่ยงต่ำ
การจัดการ API การหยุดบริการ ตํ่า การหยุดทำงานเต็มรูปแบบสำหรับผู้ใช้ภายนอก การขึ้นต่อกันกับ Microsoft ในการแก้ไข เต็ม
การจัดการ API การหยุดทำงานในระดับภูมิภาค ต่ำมาก การหยุดทำงานเต็มรูปแบบสำหรับผู้ใช้ภายนอก การขึ้นต่อกันกับ Microsoft ในการแก้ไข เต็ม
การจัดการ API การโจมตีแบบ DDoS Medium แนวโน้มในการหยุดชะงัก Microsoft จัดการการป้องกัน DDoS (L3 และ L4) แนวโน้มในการหยุดทำงานบางส่วน
โซลูชัน Power Platform ของคุณ การกำหนดค่าที่ผิดพลาด Medium ควรตรวจพบการกำหนดค่าที่ไม่ถูกต้องในระหว่างการปรับใช้ หากสิ่งเหล่านี้เกิดขึ้นระหว่างการอัปเดตการกำหนดค่า ผู้ดูแลระบบจะต้องย้อนกลับการเปลี่ยนแปลง การอัปเดตการกำหนดค่าทำให้เกิดการหยุดทำงานภายนอกชั่วคราว แนวโน้มในการหยุดทำงานทุกส่วน

การอำนวยความสะดวกของ Power Platform

Power Platform ผสานรวมกับ Application Insights ซึ่งเป็นส่วนหนึ่งของระบบนิเวศ Azure Monitor คุณสามารถใช้การผสานรวมนี้เพื่อ:

  • สมัครรับการวัดและส่งข้อมูลทางไกลที่บันทึกโดยแพลตฟอร์ม Dataverse ใน Application Insights เกี่ยวกับการวินิจฉัย ประสิทธิภาพ และการดำเนินการที่แอปพลิเคชันดำเนินการบนฐานข้อมูล Dataverse ของคุณและภายในแอปแบบจำลอง การวัดและส่งข้อมูลทางไกลนี้จะให้ข้อมูลที่คุณสามารถใช้เพื่อวินิจฉัยและแก้ไขปัญหาที่เกี่ยวข้องกับข้อผิดพลาดและประสิทธิภาพ

  • เชื่อมต่อแอปพื้นที่ทำงานของคุณกับ Application Insights เพื่อใช้การวิเคราะห์เหล่านี้เพื่อวินิจฉัยปัญหา ทำความเข้าใจว่าผู้ใช้ทำอะไรกับแอปของคุณจริงๆ ขับเคลื่อนการตัดสินใจทางธุรกิจได้ดีขึ้น และปรับปรุงคุณภาพของแอปของคุณ

  • กำหนดค่าการวัดและส่งข้อมูลทางไกล Power Automate ให้โฟลว์เข้าสู่ Application Insights คุณสามารถใช้การวัดและส่งข้อมูลทางไกลนี้เพื่อตรวจสอบการดำเนินการของโฟลว์ระบบคลาวด์และสร้างการแจ้งเตือนสำหรับความล้มเหลวในการเรียกใช้โฟลว์ระบบคลาวด์

  • บันทึกข้อมูลการวัดและส่งข้อมูลทางไกลจาก เอเจนต์ Microsoft Copilot Studio ของคุณเพื่อใช้ใน Azure Application Insights คุณสามารถใช้การวัดและส่งข้อมูลทางไกลนี้เพื่อตรวจสอบข้อความและเหตุการณ์ที่บันทึกไว้ซึ่งส่งไปและกลับจากเอเจนต์ หัวข้อที่จะทริกเกอร์ระหว่างการสนทนาของผู้ใช้ และเหตุการณ์การวัดและส่งข้อมูลทางไกลแบบกำหนดเองที่สามารถส่งได้จากหัวข้อของคุณ

กิจกรรมของบันทึกทรัพยากร Power Platform ในพอร์ทัลการปฏิบัติตามข้อบังคับของ Microsoft Purview กิจกรรมส่วนใหญ่จะจัดขึ้นภายใน 24 ชั่วโมงหลังกิจกรรม อย่าใช้ข้อมูลนี้สำหรับการตรวจสอบแบบเรียลไทม์ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับกิจกรรมการบันทึกใน Power Platform โปรดดู:

รายการตรวจสอบความน่าเชื่อถือ

โปรดดูชุดคำแนะนำทั้งหมด