คำแนะนำสำหรับการดำเนินการวิเคราะห์โหมดความล้มเหลว
นำไปใช้กับคำแนะนำรายการตรวจสอบความน่าเชื่อถือของ Power Platform Well-Architected:
RE:03 | ใช้การวิเคราะห์โหมดความล้มเหลว (FMA) เพื่อระบุและจัดลำดับความสำคัญของความล้มเหลวที่อาจเกิดขึ้นในส่วนประกอบของโซลูชัน ดำเนินการ FMA เพื่อช่วยคุณประเมินความเสี่ยงและผลกระทบของโหมดความล้มเหลวแต่ละโหมด กำหนดวิธีที่ปริมาณงานตอบสนองและกู้คืน |
---|
คู่มือนี้อธิบายแนวปฏิบัติที่ดีที่สุดในการดำเนินการวิเคราะห์โหมดความล้มเหลว (FMA) สำหรับปริมาณงานของคุณ FMA คือแนวปฏิบัติในการระบุจุดที่อาจเกิดความล้มเหลวภายในปริมาณงานและโฟลว์ที่เกี่ยวข้อง และวางแผนการดำเนินการลดผลกระทบ ในแต่ละขั้นตอนของโฟลว์ คุณจะระบุรัศมีการกระจายของความล้มเหลวหลายประเภท ซึ่งช่วยให้คุณออกแบบปริมาณงานใหม่หรือปรับโครงสร้างปริมาณงานที่มีอยู่ใหม่เพื่อลดผลกระทบของความล้มเหลวในวงกว้าง
หลักสำคัญของ FMA คือความล้มเหลวจะเกิดขึ้นไม่ว่าคุณจะใช้ความยืดหยุ่นกี่ชั้นก็ตาม สภาพแวดล้อมที่ซับซ้อนมากขึ้นต้องเผชิญกับความล้มเหลวประเภทต่างๆ มากขึ้น ด้วยความเป็นจริงนี้ FMA ช่วยให้คุณสามารถออกแบบปริมาณงานของคุณให้ทนทานต่อความล้มเหลวเกือบทุกประเภท และกู้คืนได้อย่างสมบูรณ์เมื่อเกิดความล้มเหลว
หากคุณข้าม FMA ไปเลยหรือทำการวิเคราะห์ที่ไม่สมบูรณ์ ปริมาณงานของคุณจะมีความเสี่ยงที่ทำให้เกิดพฤติกรรมที่ไม่คาดคิดและการหยุดทำงานที่อาจเกิดขึ้นจากการออกแบบที่ไม่เหมาะสม
คำนิยาม
เงื่อนไข | ข้อกำหนด |
---|---|
โหมดความล้มเหลว | ชนิดของปัญหาที่อาจทำให้ส่วนประกอบของปริมาณงานตั้งแต่หนึ่งรายการขึ้นไปลดระดับลงหรือได้รับผลกระทบอย่างรุนแรงจนถึงจุดที่ไม่พร้อมใช้งาน |
การแก้ไข | กิจกรรมที่คุณระบุเพื่อแก้ไขปัญหาทั้งเชิงรุกหรือเชิงรับ |
การตรวจหา | ข้อมูลและกระบวนการตรวจสอบและแจ้งเตือนแอปของคุณ |
กลยุทธ์การออกแบบที่สำคัญ
ในบริบทของ FMA การทำความเข้าใจข้อกำหนดเบื้องต้นเป็นสิ่งสำคัญ เริ่มต้นด้วยการทบทวนและดำเนินการตามคำแนะนำในการระบุโฟลว์ โดยจัดลำดับความสำคัญตามความวิพากษ์วิจารณ์ สิ่งประดิษฐ์ข้อมูลของคุณมีบทบาทสำคัญในการอธิบายเส้นทางข้อมูลภายในโฟลว์เหล่านี้ เมื่อคุณเจาะลึกแนวทาง FMA ให้มุ่งเน้นไปที่การวางแผนองค์ประกอบสำหรับโฟลว์ที่สำคัญ การระบุการขึ้นต่อกัน (ทั้งภายในและภายนอก) และการกำหนดกลยุทธ์การลดผลกระทบ
ข้อกำหนดเบื้องต้น
ตรวจสอบและปฏิบัติตามคำแนะนำในการระบุและให้คะแนนโฟลว์ ซึ่งจะถือว่าคุณได้ระบุและจัดลำดับความสำคัญของโฟลว์ผู้ใช้และระบบตามความสำคัญ
ข้อมูลที่คุณรวบรวมและส่วนที่คุณสร้างขึ้นในงานของคุณจะให้คำอธิบายที่เป็นรูปธรรมเกี่ยวกับเส้นทางข้อมูลของคุณที่เกี่ยวข้องตลอดโฟลว์ เพื่อให้งาน FMA ของคุณประสบความสำเร็จ ความแม่นยำและความทั่วถึงในสิ่งประดิษฐ์ของคุณเป็นสิ่งสำคัญ
แนวทาง FMA
หลังจากที่คุณกำหนดโฟลว์ที่สำคัญแล้ว คุณสามารถวางแผนส่วนประกอบที่ต้องใช้ได้ จากนั้น ทำตามขั้นตอนแต่ละขั้นตอนเพื่อระบุการขึ้นต่อกัน รวมถึงบริการของบริษัทอื่นและจุดที่อาจเกิดความล้มเหลว และวางแผนกลยุทธ์การบรรเทาผลกระทบของคุณ
ย่อยปริมาณงาน
เมื่อคุณเปลี่ยนจากแนวคิดไปสู่การออกแบบ คุณจะต้องระบุประเภทส่วนประกอบที่จำเป็นต่อการสนับสนุนปริมาณงานของคุณ ปริมาณงานของคุณจะเป็นตัวกำหนดองค์ประกอบที่จำเป็นที่คุณต้องวางแผน
หลังจากที่คุณสร้างการออกแบบสถาปัตยกรรมเริ่มต้นแล้ว คุณสามารถซ้อนทับโฟลว์ของคุณเพื่อระบุส่วนประกอบที่ไม่ต่อเนื่องที่ใช้ในโฟลว์เหล่านั้น และสร้างรายการหรือไดอะแกรมเวิร์กโฟลว์ที่อธิบายโฟลว์และส่วนประกอบต่างๆ เพื่อให้เข้าใจถึงการวิพากษ์วิจารณ์ของส่วนประกอบ ให้ใช้ข้อกำหนดการวิพากษ์วิจารณ์ที่คุณได้กำหนดให้กับโฟลว์ พิจารณาผลกระทบของการทำงานผิดพลาดของส่วนประกอบต่อโฟลว์ของคุณ
ระบุการขึ้นต่อกัน
ระบุการขึ้นต่อกันของปริมาณงานของคุณเพื่อทำการวิเคราะห์จุดล้มเหลวจุดเดียว การแยกย่อยปริมาณงานและโฟลว์การซ้อนทับจะให้ข้อมูลเชิงลึกเกี่ยวกับการขึ้นต่อกันทั้งภายในและภายนอกของปริมาณงาน
การขึ้นต่อกันภายในเป็นส่วนประกอบในขอบเขตปริมาณงานที่จำเป็นสำหรับปริมาณงานในการทำงาน การพึ่งพาภายในโดยทั่วไป ได้แก่ API หรือโซลูชันการจัดการข้อมูลลับ/คีย์ เช่น Azure Key Vault สำหรับการขึ้นต่อกันเหล่านี้ ให้เก็บข้อมูลความน่าเชื่อถือ เช่น ข้อตกลงระดับการให้บริการ (SLA) และขีดจำกัดการปรับขนาด การขึ้นต่อกันภายนอกเป็นส่วนประกอบที่จำเป็นนอกขอบเขตของปริมาณงาน เช่น แอปพลิเคชันอื่นหรือบริการของบริษัทอื่น การพึ่งพาภายนอกโดยทั่วไปจะรวมถึงโซลูชันการตรวจสอบสิทธิ์ เช่น Microsoft Entra ID และโครงสร้างพื้นฐาน Power Platform
ระบุและจัดทำเอกสารการขึ้นต่อกันในปริมาณงานของคุณ และรวมไว้ในเอกสารประกอบโฟลว์ของคุณ
จุดล้มเหลว
ในโฟลว์วิกฤตของปริมาณงานของคุณ ให้พิจารณาแต่ละส่วนประกอบและพิจารณาว่าส่วนประกอบนั้นและการขึ้นต่อกันของส่วนประกอบนั้นอาจได้รับผลกระทบจากโหมดความล้มเหลวอย่างไร โปรดจำไว้ว่ามีโหมดความล้มเหลวมากมายที่ต้องพิจารณาเมื่อวางแผนความยืดหยุ่นและการฟื้นตัว ส่วนประกอบตัวใดตัวหนึ่งอาจได้รับผลกระทบจากโหมดความล้มเหลวมากกว่าหนึ่งโหมดในเวลาใดก็ตาม โหมดความล้มเหลวเหล่านี้ ได้แก่
- การหยุดทำงานในระดับภูมิภาค: ภูมิภาค Power Platform หรือ Azure ทั้งหมดไม่พร้อมใช้งาน
- บริการขัดข้อง: บริการ Power Platform หรือ Azure หนึ่งรายการขึ้นไปไม่พร้อมใช้งาน
- การปฏิเสธการให้บริการแบบกระจาย (DDoS) หรือการโจมตีที่เป็นอันตรายอื่น ๆ
- การกำหนดค่าแอปหรือส่วนประกอบไม่ถูกต้อง
- ข้อผิดพลาดของตัวดำเนินการ
- การหยุดซ่อมบำรุงรักษาตามแผน
- การโอเวอร์โหลดของส่วนประกอบ
พิจารณาความน่าจะเป็นของโหมดความล้มเหลวแต่ละประเภท บางอย่างไม่น่าเป็นไปได้อย่างมาก เช่น การหยุดทำงานในหลายโซนหรือหลายภูมิภาค และการเพิ่มการวางแผนบรรเทาผลกระทบนอกเหนือจากความซ้ำซ้อนไม่ใช่การใช้ทรัพยากรและเวลาที่ดี
การแก้ไข
กลยุทธ์การบรรเทาผลกระทบแบ่งออกเป็นสองประเภทกว้างๆ ได้แก่ การสร้างความยืดหยุ่นมากขึ้น และการออกแบบเพื่อประสิทธิภาพที่ลดลง
การสร้างความยืดหยุ่นมากขึ้นหมายถึงการทำให้แน่ใจว่าการออกแบบแอปพลิเคชันของคุณเป็นไปตามแนวทางปฏิบัติที่ดีที่สุดเพื่อความทนทาน ตัวอย่างเช่น การแบ่งแอปพลิเคชันขนาดใหญ่ออกเป็นแอปและไมโครเซอร์วิสที่แยกออกมา และใช้การกำหนดค่าความยืดหยุ่นที่มีให้โดยแพลตฟอร์ม เช่น นโยบายการลองใหม่ สำหรับข้อมูลเพิ่มเติม โปรดดูที่คำแนะนำสำหรับความซ้ำซ้อนและข้อแนะนำในการดูแลรักษาตนเอง
หากต้องการออกแบบประสิทธิภาพที่ลดลง ให้ระบุจุดความล้มเหลวที่อาจเกิดขึ้นซึ่งอาจปิดการใช้งานองค์ประกอบอย่างน้อยหนึ่งรายการในโฟลว์ของคุณ แต่อย่าปิดการใช้งานโฟลว์นั้นโดยสมบูรณ์ เพื่อรักษาฟังก์ชันการทำงานของโฟลว์ตั้งแต่ต้นทางถึงปลายทาง คุณอาจต้องเปลี่ยนเส้นทางตั้งแต่หนึ่งขั้นตอนขึ้นไปไปยังส่วนประกอบอื่น หรือยอมรับว่าส่วนประกอบที่ล้มเหลวเรียกใช้ฟังก์ชัน ดังนั้นฟังก์ชันดังกล่าวจะไม่พร้อมใช้งานในประสบการณ์ผู้ใช้อีกต่อไป หากต้องการกลับไปยังตัวอย่างแอปพลิเคชันอีคอมเมิร์ซ ส่วนประกอบที่ล้มเหลว เช่น ไมโครเซอร์วิสอาจทำให้กลไกการแนะนำของคุณไม่พร้อมใช้งาน แต่ลูกค้ายังคงสามารถค้นหาผลิตภัณฑ์และทำธุรกรรมให้เสร็จสมบูรณ์ได้
คุณต้องวางแผนการบรรเทาผลกระทบเกี่ยวกับการขึ้นต่อกันด้วย การพึ่งพาที่แข็งแกร่งมีบทบาทสำคัญในฟังก์ชันและความพร้อมใช้งานของแอปพลิเคชัน หากไม่มีหรือพบความผิดปกติ อาจส่งผลกระทบอย่างมีนัยสำคัญ การไม่มีการพึ่งพาที่ไม่รัดกุมอาจส่งผลต่อคุณลักษณะเฉพาะเท่านั้น และไม่ส่งผลต่อความพร้อมใช้งานโดยรวม ความแตกต่างนี้สะท้อนถึงต้นทุนในการรักษาความสัมพันธ์ของความพร้อมใช้งานสูงระหว่างบริการและการขึ้นต่อกันของบริการ จำแนกประเภทการขึ้นต่อกันว่าสูงหรือต่ำ เพื่อช่วยคุณระบุส่วนประกอบที่จำเป็นต่อแอปพลิเคชัน
หากแอปพลิเคชันมีการขึ้นต่อกันอย่างมากซึ่งไม่สามารถทำงานได้หากไม่มี เป้าหมายความพร้อมใช้งานและการกู้คืนของการขึ้นต่อกันเหล่านี้ควรสอดคล้องกับเป้าหมายของแอปพลิเคชันนั้นเอง หากวงจรการใช้งานของแอปพลิเคชันมีความสัมพันธ์อย่างใกล้ชิดกับวงจรการใช้งานของการขึ้นต่อกัน ความคล่องตัวในการดำเนินงานของแอปพลิเคชันอาจถูกจำกัด โดยเฉพาะอย่างยิ่งสำหรับการเปิดตัวใหม่
การตรวจหา
การตรวจจับความล้มเหลวถือเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าคุณได้ระบุจุดความล้มเหลวในการวิเคราะห์อย่างถูกต้อง และวางแผนกลยุทธ์การลดผลกระทบอย่างเหมาะสม การตรวจจับในบริบทนี้หมายถึงการตรวจสอบโครงสร้างพื้นฐาน ข้อมูล และแอปพลิเคชันของคุณ และการแจ้งเตือนเมื่อเกิดปัญหา ตรวจจับอัตโนมัติให้มากที่สุดเท่าที่จะเป็นไปได้ และสร้างความซ้ำซ้อนในกระบวนการปฏิบัติงานของคุณเพื่อให้แน่ใจว่าการแจ้งเตือนจะถูกตรวจจับอยู่เสมอและตอบสนองเร็วพอที่จะตอบสนองความต้องการทางธุรกิจของคุณ สำหรับข้อมูลเพิ่มเติม โปรดดูคำแนะนำสำหรับการตรวจสอบ
ผลที่ได้
สำหรับผลลัพธ์ของการวิเคราะห์ ให้สร้างชุดเอกสารที่สื่อสารสิ่งที่คุณค้นพบได้อย่างมีประสิทธิภาพ การตัดสินใจที่คุณทำโดยสัมพันธ์กับองค์ประกอบโฟลว์และการบรรเทาผลกระทบ และผลกระทบของความล้มเหลวต่อปริมาณงานของคุณ
ในการวิเคราะห์ของคุณ ให้จัดลำดับความสำคัญของโหมดความล้มเหลวและกลยุทธ์การบรรเทาผลกระทบที่คุณระบุตามความรุนแรงและโอกาส ใช้การจัดลำดับความสำคัญนี้เพื่อโฟกัสไปที่คู่มือของคุณในโหมดความล้มเหลวที่เกิดขึ้นทั่วไปและรุนแรงเพียงพอที่จะรับประกันการใช้เวลา ความพยายาม และทรัพยากรในการออกแบบกลยุทธ์การบรรเทาผลกระทบ ตัวอย่างเช่น อาจมีโหมดความล้มเหลวบางโหมดที่เกิดหรือตรวจพบได้ยากมาก การออกแบบกลยุทธ์การบรรเทาผลกระทบโดยรอบไม่คุ้มค่ากับต้นทุน
โปรดดูตารางตัวอย่างสำหรับจุดเริ่มต้นของคู่มือ
ในระหว่างการฝึก FMA เบื้องต้น เอกสารที่คุณจัดทำส่วนใหญ่จะเป็นการวางแผนเชิงทฤษฎี เอกสาร FMA ควรได้รับการตรวจสอบและอัปเดตเป็นประจำเพื่อให้แน่ใจว่าเอกสารเหล่านั้นมีข้อมูลล่าสุดเกี่ยวกับปริมาณงานของคุณ การทดสอบความโกลาหลและประสบการณ์จริงจะช่วยให้คุณสามารถปรับแต่งการวิเคราะห์เมื่อเวลาผ่านไป
ตัวอย่างเช่น
ตารางต่อไปนี้แสดงตัวอย่าง FMA สำหรับแอปพลิเคชันค่าใช้จ่ายที่โฮสต์เป็นแอปพื้นที่ทำงาน Power Apps ที่มีแบ็กเอนด์ Microsoft Dataverse และ API ที่โฮสต์ใน APIM เพื่อโต้ตอบกับระบบของบุคคลที่สาม
ขั้นตอนของผู้ใช้: เข้าสู่ระบบของผู้ใช้ การส่งการเรียกร้องค่าใช้จ่าย และการโต้ตอบกับรายงานค่าใช้จ่าย
คอมโพเนนต์ | ความเสี่ยง | ความเป็นไปได้ | ผลกระทบ/การบรรเทาผลกระทบ/หมายเหตุ | การหยุดทำงาน |
---|---|---|---|---|
Microsoft Entra ID | การหยุดบริการ | ตํ่า | การหยุดทำงานของปริมาณงานเต็มรูปแบบ การขึ้นต่อกันกับ Microsoft ในการแก้ไข | เต็ม |
Microsoft Entra ID | การกำหนดค่าที่ผิดพลาด | Medium | ผู้ใช้ไม่สามารถลงชื่อเข้าใช้ได้ ไม่มีผลกระทบต่อดาวน์สตรีม ฝ่ายช่วยเหลือรายงานปัญหาการกำหนดค่าไปยังทีมข้อมูลประจำตัว | None |
Power Apps | การหยุดบริการ | ตํ่า | การหยุดทำงานเต็มรูปแบบสำหรับผู้ใช้ภายนอก การขึ้นต่อกันกับ Microsoft ในการแก้ไข | เต็ม |
Power Apps | การหยุดทำงานในระดับภูมิภาค | ต่ำมาก | การหยุดทำงานเต็มรูปแบบสำหรับผู้ใช้ภายนอก การขึ้นต่อกันกับ Microsoft ในการแก้ไข | เต็ม |
Power Apps | การโจมตีแบบ DDoS | Medium | แนวโน้มในการหยุดชะงัก Microsoft จัดการการป้องกัน DDoS (L3 และ L4) | แนวโน้มในการหยุดทำงานบางส่วน |
Dataverse | การหยุดบริการ | ตํ่า | การหยุดทำงานของปริมาณงานเต็มรูปแบบ การขึ้นต่อกันกับ Microsoft ในการแก้ไข | เต็ม |
Dataverse | การหยุดทำงานในระดับภูมิภาค | ต่ำมาก | กลุ่มการเฟลโอเวอร์อัตโนมัติทำให้เกิดความล้มเหลวในภูมิภาครอง อาจเกิดการหยุดทำงานระหว่างการเฟลโอเวอร์ วัตถุประสงค์เวลาฟื้นตัว (RTO) และวัตถุประสงค์จุดฟื้นตัว (RPO) ที่จะกำหนดในระหว่างการทดสอบความน่าเชื่อถือ | แนวโน้มเต็มรูปแบบ |
Dataverse | การโจมตีที่เป็นอันตราย (การแทรกโค้ด) | Medium | ความเสี่ยงน้อยที่สุด | อาจมีความเสี่ยงต่ำ |
การจัดการ API | การหยุดบริการ | ตํ่า | การหยุดทำงานเต็มรูปแบบสำหรับผู้ใช้ภายนอก การขึ้นต่อกันกับ Microsoft ในการแก้ไข | เต็ม |
การจัดการ API | การหยุดทำงานในระดับภูมิภาค | ต่ำมาก | การหยุดทำงานเต็มรูปแบบสำหรับผู้ใช้ภายนอก การขึ้นต่อกันกับ Microsoft ในการแก้ไข | เต็ม |
การจัดการ API | การโจมตีแบบ DDoS | Medium | แนวโน้มในการหยุดชะงัก Microsoft จัดการการป้องกัน DDoS (L3 และ L4) | แนวโน้มในการหยุดทำงานบางส่วน |
โซลูชัน Power Platform ของคุณ | การกำหนดค่าที่ผิดพลาด | Medium | ควรตรวจพบการกำหนดค่าที่ไม่ถูกต้องในระหว่างการปรับใช้ หากสิ่งเหล่านี้เกิดขึ้นระหว่างการอัปเดตการกำหนดค่า ผู้ดูแลระบบจะต้องย้อนกลับการเปลี่ยนแปลง การอัปเดตการกำหนดค่าทำให้เกิดการหยุดทำงานภายนอกชั่วคราว | แนวโน้มในการหยุดทำงานทุกส่วน |
การอำนวยความสะดวกของ Power Platform
Power Platform ผสานรวมกับ Application Insights ซึ่งเป็นส่วนหนึ่งของระบบนิเวศ Azure Monitor คุณสามารถใช้การผสานรวมนี้เพื่อ:
สมัครรับการวัดและส่งข้อมูลทางไกลที่บันทึกโดยแพลตฟอร์ม Dataverse ใน Application Insights เกี่ยวกับการวินิจฉัย ประสิทธิภาพ และการดำเนินการที่แอปพลิเคชันดำเนินการบนฐานข้อมูล Dataverse ของคุณและภายในแอปแบบจำลอง การวัดและส่งข้อมูลทางไกลนี้จะให้ข้อมูลที่คุณสามารถใช้เพื่อวินิจฉัยและแก้ไขปัญหาที่เกี่ยวข้องกับข้อผิดพลาดและประสิทธิภาพ
เชื่อมต่อแอปพื้นที่ทำงานของคุณกับ Application Insights เพื่อใช้การวิเคราะห์เหล่านี้เพื่อวินิจฉัยปัญหา ทำความเข้าใจว่าผู้ใช้ทำอะไรกับแอปของคุณจริงๆ ขับเคลื่อนการตัดสินใจทางธุรกิจได้ดีขึ้น และปรับปรุงคุณภาพของแอปของคุณ
กำหนดค่าการวัดและส่งข้อมูลทางไกล Power Automate ให้โฟลว์เข้าสู่ Application Insights คุณสามารถใช้การวัดและส่งข้อมูลทางไกลนี้เพื่อตรวจสอบการดำเนินการของโฟลว์ระบบคลาวด์และสร้างการแจ้งเตือนสำหรับความล้มเหลวในการเรียกใช้โฟลว์ระบบคลาวด์
บันทึกข้อมูลการวัดและส่งข้อมูลทางไกลจาก เอเจนต์ Microsoft Copilot Studio ของคุณเพื่อใช้ใน Azure Application Insights คุณสามารถใช้การวัดและส่งข้อมูลทางไกลนี้เพื่อตรวจสอบข้อความและเหตุการณ์ที่บันทึกไว้ซึ่งส่งไปและกลับจากเอเจนต์ หัวข้อที่จะทริกเกอร์ระหว่างการสนทนาของผู้ใช้ และเหตุการณ์การวัดและส่งข้อมูลทางไกลแบบกำหนดเองที่สามารถส่งได้จากหัวข้อของคุณ
กิจกรรมของบันทึกทรัพยากร Power Platform ในพอร์ทัลการปฏิบัติตามข้อบังคับของ Microsoft Purview กิจกรรมส่วนใหญ่จะจัดขึ้นภายใน 24 ชั่วโมงหลังกิจกรรม อย่าใช้ข้อมูลนี้สำหรับการตรวจสอบแบบเรียลไทม์ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับกิจกรรมการบันทึกใน Power Platform โปรดดู:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- ตัวเชื่อมต่อ Power Platform
- การป้องกันการสูญหายของข้อมูล
- ไฟล์บันทึกการดูแลระบบ Power Platform
- การตรวจสอบ Dataverse
รายการตรวจสอบความน่าเชื่อถือ
โปรดดูชุดคำแนะนำทั้งหมด