Virhetilan analyysia koskevia suosituksia
Koskee tätä Power Platform hyvin suunnitellun luotettavuuden tarkistuslistan suositusta:
RE:03 | Käytä virhetilan analyysiä (FMA) mahdollisten virheiden tunnistamiseen ja priorisointiin ratkaisun osissa. Suorita FMA avuksi kunkin virhetilan riskien ja vaikutusten arviontiin. Määritä, miten työmäärä vastaa ja palautuu. |
---|
Tässä oppaassa kerrotaan työmäärän virhetilan analyysin suorittamisen parhaat käytännöt. Virhetilan analyysi on työmäärän ja liittyvien työnkulkujen mahdollisten vikaantumispisteiden tunnistamisen ja lievennystoimintojen suunnittelemisen käytäntö. Työnkulun jokaisessa vaiheessa tunnistetaan useiden virhetyyppien vaikutusalue. Tämä auttaa uuden työmäärän suunnittelussa tai olemassa olevan työmäärän refaktoroinnissa, jotta virheiden vaikutuksen leviäminen voidaan minimoida.
Virhetilan analyysin tärkein opinkappale on se, että virheitä tapahtuu, vaikka vikasietoisuuden tasojen määrä olisi suuri. Monimutkaiset ympäristöt ovat alttiina useille virhetyypeille. Kun tämä otetaan huomioon, virhetilan analyysi voi auttaa työmäärän suunnittelemisessa sellaiseksi, että se sietää useimmat virhetyypit ja palautuu virheistä hallitusti.
Jos virhetilan analyysi ohitetaan kokonaan tai suoritettava analyysi on epätäydellinen, työmäärällä on odottamattoman toiminnan ja epäoptimaalisen suunnittelun aiheuttama mahdollisten käyttökatkojen riski.
Määritelmät
Termi | Määritelmä |
---|---|
Virhetila | Ongelmatyyppi, joka voi aiheuttaa useiden työmäärän osien heikentymisen tai muuttumisen niin vakavasti, että työmäärä ei enää ole käytettävissä. |
Korjaavat toimet | Aktiviteetteja, jotka olet määrittänyt ongelmien ratkaisemista varten joko aktiivisesti tai passiivisesti. |
Tunnistus | Tietojen ja sovellusten valvonta ja hälytysprosessit ja -menettelyt. |
Tärkeimmät suunnittelustrategiat
Virhetilan analyysin edellytysten ymmärtäminen on erittäin tärkeää. Aloita tarkastamalla työnkulkujen tunnistamista koskevat suositukset ja toteuttamalla ne sekä priorisoimalla ne tärkeysasteen perusteella. Tietoartefaktit ovat tärkeässä roolissa, kun näiden työnkulkujen tietopolkuja kuvaillaan. Kun virhetilan analyysimenettelyä tarkastellaan, keskity tärkeiden työnkulkujen osien suunnitteluun, (sekä sisäisten että ulkoisten) riippuvuuksien tunnistamiseen ja lievennysstrategioiden laatimiseen.
edellytykset
Tarkista ja ota käyttöön työnkulkujen tunnistamista ja arviointia koskevia suosituksia. Oletetaan, että olet tunnistanut ja priorisoinut käyttäjien ja järjestelmän työnkulkuja tärkeysasteen perusteella.
Kerätyt tiedot ja työssä luodut artefaktit tarjoavat konkreettisen kuvauksen työnkulkuihin sisältyvistä tietopoluista. Virhetilan analyysityön onnistumiseksi artefaktien on oltava tarkkoja ja perinpohjaisia.
Virhetilan analyysimenettely
Kun tärkeät työnkulut on määritetty, voit suunnitella niille pakolliset osat. Seuraa tämän jälkeen kutakin työnkulkua vaihe vaiheelta, jotta voit tunnistaa riippuvuudet. Niitä ovat esimerkiksi kolmannen osapuolen palvelut ja mahdolliset vikaantumispisteet. Suunnittele tämän jälkeen lievennysstrategiat.
Työmäärän purkaminen osiin
Kun siirrytään ideasta suunnitteluun, on määritettävä työmäärän tukemisessa vaaditut osatyypit. Työmäärä määrittää tarvittavat osat, joille on tehtävä suunnitelma.
Kun ensimmäinen arkkitehtuurin rakenne on luotu, voit asettaa työnkulut päällekkäin tunnistaaksesi näissä työnkuluissa käytettävät erilliset osat. Luo luettelot tai työnkulkukaaviot, joissa kerrotaan työnkuluista ja niiden osista. Jos haluat lisätietoja osien tärkeysasteesta, käytä työnkuluille määritettyjä tärkeysasteen määrityksiä. Ota huomioon osan virheiden vaikutus työnkulkuihin.
Riippuvuuksien tunnistaminen
Määritä työmäärän riippuvuudet yksittäinen vikaantumispisteen analyysin suorittamiseksi. Työmäärän ja päällekkäisten työnkulkujen purkaminen osiin tarjoaa merkityksellisiä tietoja työmäärän sisäisistä ja ulkoisista riippuvuuksista.
Sisäiset riippuvuudet ovat työmäärän vaikutusalueen osia, joita tarvitaan työmäärän toiminnassa. Tyypillisiä sisäisiä riippuvuuksia ovat ohjelmointirajapinnat ja salaisten avainten ja avainten hallintaratkaisut, kuten Azure Key Vault. Kerää näille riippuvuuksille luotettavuustietoja, kuten käytettävyyden palvelutasosopimuksia ja skaalausrajoituksia. Ulkoiset riippuvuudet ovat pakollisia osia, jotka eivät kuulu työmäärän laajuuteen, esimerkiksi toiseen sovellukseen tai kolmannen osapuolen palveluun. Tyypillisiä ulkoisia riippuvuuksia ovat todennusratkaisut, kuten Microsoft Entra ID- ja Power Platform -infrastruktuuri.
Tunnista ja dokumentoi työmäärän riippuvuudet ja sisällytä ne työnkulun ohjeiden artefakteihin.
Vikaantumispisteet
Määritä, miten virhetila voi vaikuttaa työmäärän tärkeiden työnkulkujen kuhunkin osaan ja sen riippuvuuksiin. Muista, että vikasietoisuutta ja palautusta suunniteltaessa tulee ottaa huomioon useat eri virhetilat. Kuhunkin osaan voi vaikuttaa usea virhetila milloin tahansa. Virhetiloja ovat esimerkiksi seuraavat:
- Alueellinen käyttökatko: Power Platform- tai Azure-alue kokonaisuudessaan ei ole käytettävissä
- Palvelun käyttökatko: Vähintään yksi Power Platform- tai Azure-palvelu ei ole käytettävissä
- Jaettu palvelunestohyökkäys (DDoS) tai muu haitallinen hyökkäys
- Sovelluksen tai osan virheellinen määritys
- Operaattorivirhe
- Suunniteltu ylläpitokatko
- Osan ylikuormittuminen
Pohdi, miten todennäköinen kunkin virhetilatyyppi on. Jotkin ovat hyvin epätodennäköisiä, kuten usean alueen käyttökatkot. Lievennyssuunnittelun lisääminen vikasietoisuuden lisäksi ei ole kannattavaa resurssien ja ajan käyttämistä.
Korjaavat toimet
Lieventämisstrategiat kuuluvat kahteen pääluokkaan: vikasietoisuuden vahvistaminen ja valmistautuminen heikentyneeseen suorituskykyyn.
Vikasietoisuuden parantaminen varmistaa, että sovelluksen rakenne noudattaa kestävyyden parhaita käytäntöjä, joita ovat esimerkiksi monoliittisten sovellusten jakaminen eristetyiksi sovelluksiksi ja mikropalveluiksi käyttämällä ympäristössä olevia vikasietoisuusmäärityksiä, kuten uudelleenyrityskäytäntöjä. Lisätietoja on kohdissa Vikasietoisuutta koskevat suositukset ja Itsesuojausta koskevat suositukset.
Voit valmistautua heikentyneeseen suorituskykyyn tunnistamalla mahdolliset vikaantumispisteet, jotka voivat poistaa käytöstä yhden osan tai useita osia työnkulussa, mutta eivät koko työnkulkua. Jotta koko työnkulku toimii kunnolla, vähintään yksi vaihe on ehkä reititettävä uudelleen muille osille. Vaihtoehto on antaa virheellisen osan suorittaa toiminto, jolloin toiminto ei enää ole käytettävissä käyttökokemuksessa. Palataan sähköisen kaupankäynnin sovelluksen esimerkkiin, jossa esimerkiksi mikropalvelun kaltaisen osan virheen vuoksi suositusmoduuli ei ole käytettävissä, mutta asiakkaat voivat yhä hakea tuotteita ja suorittaa transaktioita.
Riippuvuuksille on myös tehtävä lievennyssuunnitelma. Vahvat riippuvuudet ovat tärkeässä roolissa sovelluksen funktiossa ja käytettävyydessä. Jos ne puuttuvat tai jos niissä on virheitä, vaikutus voi olla merkittävä. Heikkojen riippuvuuksien puuttuminen voi vaikuttaa vain tiettyihin ominaisuuksiin, ei yleiseen käytettävyyteen. Ero vaikuttaa korkean käytettävyyden palvelun ja sen riippuvuuksien välisten suhteiden ylläpitämisen kustannuksiin. Luokittele riippuvuudet joko vahvoiksi tai heikoiksi, jotta tunnistat sovelluksen kannalta tärkeät osat.
Jos sovelluksella on vahvoja riippuvuuksia, joita ilman se ei voi toimia, näiden riippuvuuksien käytettävyys- ja palautustavoitteet tulee kohdistaa itse sovelluksen tavoitteisiin. Jos sovelluksen elinkaari on läheisesti sidoksissa sen riippuvuuksien elinkaareen, sovelluksen operatiivista ketteryyttä voidaan rajoittaa erityisesti uusien julkaisujen osalta.
Tunnistus
Virheiden tunnistus on erittäin tärkeää, jotta analyysin vikaantumispisteet voidaan tunnistaa oikein ja lievennysstrategiat suunnitella kunnolla. Tunnistus tarkoittaa tässä kontekstissa infrastruktuurin, tietojen ja sovelluksen valvomista ja hälytysten tekemistä, kun ongelmia ilmenee. Tunnistusta kannattaa automatisoida mahdollisimman paljon, ja toimintojen prosesseihin kannattaa luoda vikasietoisuutta. Näin varmistetaan, että hälytykset huomioidaan ja niihin vastataan aina riittävän nopeasti, jotta voidaan vastata liiketoiminnan tarpeisiin. Lisätietoja on kohdassa Valvontaa koskevat suositukset.
Tulos
Luo analyysin tulosta varten joukko asiakirjoja, joissa kerrotaan havainnoista, työnkulun osiin ja lievennykseen liittyvistä päätöksistä ja virheen vaikutuksesta työmäärään.
Priorisoi analyysissä vakavuustason ja todennäköisyyden perusteella tunnistettuja virhetiloja ja lievennysstrategioita. Tämän priorisoinnin avulla voit kohdistaa ohjeet niihin virhetiloihin, jotka ovat tavallisia ja riittävän vakavia, jotta niiden lievennysstrategioiden suunnitteluun kannattaa käyttää aikaa, työtä ja resursseja. Esimerkiksi jotkin virhetilat voivat tapahtua erittäin harvoin tai niitä tunnistetaan harvoin. Tällaisten tilojen lievennysstrategioiden suunnittelu ei ole kustannustehokasta.
Lisätietoja ohjeiden aloituskohdasta on esimerkkitaulukossa.
Alkuperäisessä virhetilan analyysia koskevassa harjoituksessa tuotettavat asiakirjat kuuluvat lähinnä teoreettiseen suunnitteluun. Virhetilan analyysin asiakirjat on tarkistettava ja päivitettävä säännöllisesti, jotta ne vastaavat työmäärää. Kaaostestaus ja tosielämän kokemukset auttavat analyysien muuttamisessa ajan kuluessa.
Esimerkki:
Seuraavassa taulukossa on vikatilan analyysin esimerkki kulusovelluksesta, jota Power Appsin pohjaan perustuva sovellus isännöi Microsoft Dataversen taustalla ja ohjelmointirajapintojen isännöimänä API-hallinnassa ollakseen yhteydessä kolmannen osapuolen järjestelmän kanssa.
Käyttäjävirta: Käyttäjän kirjautuminen, kululaskun lähettäminen ja vuorovaikutus kuluraportin kanssa
Osa | Riski | Todennäköisyys | Vaikutus/lievennys/huomautus | Katkos |
---|---|---|---|---|
Microsoft Entra ‑tunnus | Palvelun käyttökatko | Matala | Koko työmäärän käyttökatko. Riippuu Microsoft korjaamisesta. | Täydellinen |
Microsoft Entra ‑tunnus | Virheellinen määritys | Keskikokoinen | Käyttäjät eivät voi kirjautua sisään. Ei vaikuta tuotantoketjun loppupään toimintaan. Tukipalvelu raportoi ryhmän tunnistamiseen liittyvästä määritysongelmasta. | Ei mikään |
Power Apps | Palvelun käyttökatko | Matala | Täydellinen käyttökatko ulkoisille käyttäjille. Riippuu Microsoft korjaamisesta. | Täydellinen |
Power Apps | Paikallinen käyttökatko | Erittäin alhainen | Täydellinen käyttökatko ulkoisille käyttäjille. Riippuu Microsoft korjaamisesta. | Täydellinen |
Power Apps | DDoS-hyökkäys | Keskikokoinen | Mahdollinen häiriö. Microsoft hallitsee DDoS (L3 ja L4) -suojausta. | Osittainen käyttökatko mahdollinen |
Dataverse | Palvelun käyttökatko | Matala | Koko työmäärän käyttökatko. Riippuu Microsoft korjaamisesta. | Täydellinen |
Dataverse | Paikallinen käyttökatko | Erittäin alhainen | Automaattinen vikasietoryhmä ei toimi toissijaisella alueella. Mahdollinen käyttökatko vikasietotilan aikana. Palautusajan tavoitteet ja palautuspistetavoitteet, jotka määritetään luotettavuustestauksen aikana. | Mahdollisesti täydellinen |
Dataverse | Haitallinen hyökkäys (injektio) | Keskikokoinen | Pieni riski. | Mahdollinen alhainen riski |
API-hallinta | Palvelun käyttökatko | Matala | Täydellinen käyttökatko ulkoisille käyttäjille. Riippuu Microsoft korjaamisesta. | Täydellinen |
API-hallinta | Paikallinen käyttökatko | Erittäin alhainen | Täydellinen käyttökatko ulkoisille käyttäjille. Riippuu Microsoft korjaamisesta. | Täydellinen |
API-hallinta | DDoS-hyökkäys | Keskikokoinen | Mahdollinen häiriö. Microsoft hallitsee DDoS (L3 ja L4) -suojausta. | Osittainen käyttökatko mahdollinen |
Power Platform -ratkaisu | Virheellinen määritys | Keskikokoinen | Virheelliset määritykset on löydettävä käyttöönoton aikana. Jos näin tapahtuu määrityksen päivityksen aikana, järjestelmänvalvojien on poistettava muutokset. Määrityksen päivitys aiheuttaa lyhyen ulkoisen käyttökatkon. | Mahdollinen täydellinen käyttökatko |
Power Platform – avustaminen
Power Platform integroidaan Application Insightsiin, joka on osa Azure Monitor -ekojärjestelmää. Tämän integroinnin on mahdollista tehdä seuraavaa:
Tilaa telemetria, jonka Application Insightsin Dataverse-ympäristö kerää diagnostiikasta, suorituskyvystä ja toiminnoista, jotka sovellukset suorittavat Dataverse-tietokannassa ja mallipohjaisissa sovelluksissa. Telemetriassa on tietoja, joiden avulla voi diagnosoida virheisiin ja suorituksiin liittyviä ongelmia sekä tehdä niissä vianmäärityksiä.
Yhdistä pohjaan perustuvan sovellukset Application Insightsiin, jotta tätä analytiikkaa voidaan käyttää ongelmien diagnoinnissa, tietojen hankkimisessa tavasta, jolla käyttäjät käyttävät sovelluksia, aiempaa parempien liiketoimintapäätösten tekemisessä ja sovellusten laadun parantamisessa.
Määritä Power Automate -telemetria niin, että se siirtyy Application Insightsiin. Tämän telemetrian avulla on mahdollista valvoa pilvityönkulkujen suoritusta ja luoda hälytyksiä pilvityönkulkujen suoritusvirheille.
Sieppaa telemetriatietoja copilotista Microsoft Copilot Studio käytettäväksi Azuressa Application Insights. Tämän telemetrian avulla voit seurata lokiin kirjattuja viestejä ja tapahtumia, jotka lähetetään copilotiin ja copilotista, käyttäjän keskustelujen aikana käynnistettäviä aiheita ja mukautettuja telemetriatapahtumia, jotka voidaan lähettää aiheistasi.
Power Platform resurssilokitoiminnot Purview-yhteensopivuusportaalissa Microsoft . Useimmat tapahtumat ovat käytettävissä 24 tunnin kuluttua aktiviteetista. Älä käytä näitä tietoja reaaliaikaisessa valvonnassa. Lisätietoja aktiviteettien kirjaamisesta lokiin Power Platformissa on seuraavissa aiheissa:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform Liittimet
- Tietojen menetyksen estäminen
- Power Platform Hallinnolliset lokit
- Dataverse Valvonta
Luotettavuuden tarkistusluettelo
Katso lisätietoja suositusten kokoelmasta.