Best practices voor betrouwbaarheid in Azure Monitor
In de cloud erkennen we dat er fouten optreden. In plaats van fouten helemaal te proberen te voorkomen, is het doel de effecten van een onderdeel met een storing te beperken. Gebruik de volgende informatie om uw virtuele machines en hun clientworkloads te bewaken op fouten.
In dit artikel wordt de betrouwbaarheid voor Azure Monitor beschreven als onderdeel van het Azure Well-Architected Framework. Microsoft Azure Well-Architected Framework is een set leidende grondbeginselen die kunnen worden gebruikt om de kwaliteit van een werkbelasting te verbeteren. Het framework bestaat uit vijf pijlers van architectonische uitmuntendheid:
- Betrouwbaarheid
- Beveiliging
- Kostenoptimalisatie
- Operationele topprestaties
- Prestatie-efficiëntie
Azure Monitor-logboeken
Log Analytics-werkruimten bieden een hoge mate van betrouwbaarheid. De opnamepijplijn, die verzamelde gegevens naar de Log Analytics-werkruimte verzendt, controleert of de Log Analytics-werkruimte elke logboekrecord heeft verwerkt voordat de record uit de pijp wordt verwijderd. Als de opnamepijplijn niet beschikbaar is, verzenden de agents die de gegevensbuffer verzenden en probeer de logboeken gedurende vele uren opnieuw te verzenden.
Azure Monitor-logboekfuncties die de tolerantie verbeteren
Azure Monitor-logboeken bieden verschillende functies die de flexibiliteit van werkruimten verbeteren voor verschillende soorten problemen. U kunt deze functies afzonderlijk of in combinatie gebruiken, afhankelijk van uw behoeften.
Deze video biedt een overzicht van de betrouwbaarheids- en tolerantieopties die beschikbaar zijn voor Log Analytics-werkruimten:
Beveiliging in regio's met behulp van beschikbaarheidszones
Elke Azure-regio die beschikbaarheidszones ondersteunt, heeft een set datacenters die zijn uitgerust met onafhankelijke energie-, koelings- en netwerkinfrastructuur.
Beschikbaarheidszones voor Azure Monitor-logboeken zijn redundant, wat betekent dat Microsoft serviceaanvragen verspreidt en gegevens repliceert over verschillende zones in ondersteunde regio's. Als een incident van invloed is op één zone, gebruikt Microsoft in plaats daarvan automatisch een andere beschikbaarheidszone in de regio. U hoeft geen actie te ondernemen omdat het schakelen tussen zones naadloos is.
In de meeste regio's bieden Azure Monitor-logboeken ondersteuning voor gegevenstolerantie. Dit betekent dat uw opgeslagen gegevens worden beschermd tegen gegevensverlies met betrekking tot zonegebonden fouten, maar servicebewerkingen kunnen nog steeds worden beïnvloed door regionale incidenten. Als de service geen query's kan uitvoeren, kunt u de logboeken pas weergeven als het probleem is opgelost.
Een subset van de beschikbaarheidszones die ondersteuning bieden voor gegevenstolerantie, bieden ook ondersteuning voor servicetolerantie. Dit betekent dat servicebewerkingen van Azure Monitor Logs- bijvoorbeeld logboekopname, query's en waarschuwingen kunnen worden voortgezet in het geval van een zonefout.
Beschikbaarheidszones beschermen tegen infrastructuurgerelateerde incidenten, zoals opslagfouten. Ze beschermen niet tegen problemen op toepassingsniveau, zoals foutieve code-implementaties of certificaatfouten, die van invloed zijn op de hele regio.
Back-up van gegevens uit specifieke tabellen met behulp van continue export
U kunt continu gegevens exporteren die naar specifieke tabellen in uw Log Analytics-werkruimte worden verzonden naar Azure-opslagaccounts.
Het opslagaccount waarnaar u gegevens exporteert, moet zich in dezelfde regio bevinden als uw Log Analytics-werkruimte. Als u wilt beveiligen en toegang wilt hebben tot uw opgenomen logboeken, zelfs als de werkruimteregio niet beschikbaar is, gebruikt u een geografisch redundant opslagaccount, zoals wordt uitgelegd in configuratieaanbeveling.
Het exportmechanisme biedt geen bescherming tegen incidenten die van invloed zijn op de opnamepijplijn of het exportproces zelf.
Notitie
U kunt toegang krijgen tot gegevens in een opslagaccount vanuit Azure Monitor-logboeken met behulp van de operator externaldata. De geëxporteerde gegevens worden echter opgeslagen in blobs van vijf minuten en het analyseren van gegevens die meerdere blobs omvatten, kan lastig zijn. Daarom is het exporteren van gegevens naar een opslagaccount een goed mechanisme voor gegevensback-up, maar het maken van een back-up van gegevens in een opslagaccount is niet ideaal als u deze nodig hebt voor analyse in Azure Monitor-logboeken. U kunt query's uitvoeren op grote hoeveelheden blobgegevens met behulp van Azure Data Explorer, Azure Data Factory of een ander hulpprogramma voor opslagtoegang.
Cross-regional data protection and service resilience using workspace replication (preview)
Replicatie van werkruimten (preview) is de meest uitgebreide tolerantieoplossing omdat de Log Analytics-werkruimte en binnenkomende logboeken naar een andere regio worden gerepliceerd.
Werkruimtereplicatie beveiligt zowel uw logboeken als de servicebewerkingen en stelt u in staat om uw systemen te blijven bewaken in het geval van infrastructuur- of toepassingsgerelateerde incidenten in de hele regio.
In tegenstelling tot beschikbaarheidszones die Microsoft end-to-end beheert, moet u de status van uw primaire werkruimte bewaken en bepalen wanneer u wilt overschakelen naar de werkruimte in de secundaire regio en terug.
Controlelijst voor ontwerp
- Schakel werkruimtereplicatie in om service- en gegevenstolerantie voor incidenten in de hele regio te garanderen.
- Maak uw werkruimte in een regio die ondersteuning biedt voor beschikbaarheidszones om beveiliging in regio's te garanderen tegen storingen in datacenters.
- Voor regionale back-ups van gegevens in specifieke tabellen gebruikt u de functie voor continue export om gegevens te verzenden naar een geografisch gerepliceerd opslagaccount.
- Controleer de status van uw Log Analytics-werkruimten.
Aanbevelingen voor configuratie
Aanbeveling | Voordeel |
---|---|
Schakel werkruimtereplicatie in om de grootste mate van tolerantie te garanderen. | Regionale tolerantie voor werkruimtegegevens en servicebewerkingen. Werkruimtereplicatie (preview) zorgt voor hoge beschikbaarheid door een secundair exemplaar van uw werkruimte in een andere regio te maken en uw logboeken op te nemen in beide werkruimten. Schakel zo nodig over naar uw secundaire werkruimte totdat de problemen die van invloed zijn op uw primaire werkruimte, zijn opgelost. U kunt doorgaan met het opnemen van logboeken, het opvragen van gegevens, het gebruik van dashboards, waarschuwingen en Sentinel in uw secundaire werkruimte. U hebt ook toegang tot logboeken die zijn opgenomen vóór de regioswitch. Dit is een betaalde functie, dus overweeg of u al uw binnenkomende logboeken of slechts enkele gegevensstromen wilt repliceren. |
Maak indien mogelijk uw werkruimte in een regio die azure Monitor-servicetolerantie ondersteunt. | In-regio tolerantie van werkruimtegegevens en servicebewerkingen in het geval van problemen met datacenters. Beschikbaarheidszones die ondersteuning bieden voor servicetolerantie bieden ook ondersteuning voor gegevenstolerantie. Dit betekent dat zelfs als een volledig datacenter niet beschikbaar is, de redundantie tussen zones azure Monitor-servicebewerkingen, zoals opname en query's, toestaat om te blijven werken en dat uw opgenomen logboeken beschikbaar blijven. Beschikbaarheidszones bieden in-regiobeveiliging, maar bieden geen bescherming tegen problemen die van invloed zijn op de hele regio. Zie Gegevens- en servicetolerantie verbeteren in Azure Monitor-logboeken met beschikbaarheidszones voor informatie over welke regio's gegevenstolerantie ondersteunen. |
Maak uw werkruimte in een regio die ondersteuning biedt voor gegevenstolerantie. | In-regiobeveiliging tegen verlies van de logboeken in uw werkruimte in het geval van problemen met datacenters. Het maken van uw werkruimte in een regio die gegevenstolerantie ondersteunt, betekent dat zelfs als het hele datacenter niet beschikbaar is, uw opgenomen logboeken veilig zijn. Als de service geen query's kan uitvoeren, kunt u de logboeken pas weergeven als het probleem is opgelost. Zie Gegevens- en servicetolerantie verbeteren in Azure Monitor-logboeken met beschikbaarheidszones voor informatie over welke regio's gegevenstolerantie ondersteunen. |
Configureer gegevensexport van specifieke tabellen naar een opslagaccount dat wordt gerepliceerd in verschillende regio's. | Een back-up van uw logboekgegevens in een andere regio onderhouden. Met de functie voor gegevensexport van Azure Monitor kunt u continu gegevens exporteren die naar specifieke tabellen naar Azure Storage worden verzonden, waar deze gedurende langere perioden kunnen worden bewaard. Gebruik een geografisch redundante opslag (GRS) of geografisch zone-redundante opslagaccount (GZRS) om uw gegevens veilig te houden, zelfs als een hele regio niet beschikbaar is. Als u uw gegevens leesbaar wilt maken vanuit de andere regio's, configureert u uw opslagaccount voor leestoegang tot de secundaire regio. Zie Azure Storage-redundantie voor een secundaire regio en leestoegang tot gegevens in de secundaire regio voor meer informatie. Voor tabellen die continue gegevensexport niet ondersteunen, kunt u andere methoden gebruiken voor het exporteren van gegevens, waaronder Logic Apps, om uw gegevens te beveiligen. Dit is voornamelijk een oplossing om te voldoen aan naleving voor gegevensretentie, omdat de gegevens moeilijk te analyseren en te herstellen naar de werkruimte kunnen zijn. Gegevensexport is vatbaar voor regionale incidenten, omdat deze afhankelijk is van de stabiliteit van de Azure Monitor-opnamepijplijn in uw regio. Het biedt geen tolerantie tegen incidenten die van invloed zijn op de regionale opnamepijplijn. |
Controleer de status van uw Log Analytics-werkruimten. | Gebruik Inzichten in Log Analytics-werkruimten om mislukte query's bij te houden en een statuswaarschuwing te maken om u proactief op de hoogte te stellen als een werkruimte niet beschikbaar is vanwege een datacenter of regionale storing. |
Tolerantiefuncties voor Azure Monitor-logboeken vergelijken
Functie | Servicetolerantie | Back-up van gegevens | Hoge beschikbaarheid | Bereik van beveiliging | Instellingen | Kosten |
---|---|---|---|---|---|---|
Werkruimtereplicatie | ✅ | ✅ | ✅ | Bescherming tussen regio's tegen regiobrede incidenten | Schakel replicatie van de werkruimte en gerelateerde regels voor gegevensverzameling in. Schakelen tussen regio's indien nodig. | Op basis van het aantal gerepliceerde GB's en regio's. |
Beschikbaarheidszones | ✅ In ondersteunde regio's |
✅ | ✅ | In-regio-beveiliging tegen problemen met datacenters | Automatisch ingeschakeld in ondersteunde regio's. | Geen kosten |
Continue gegevensexport | ✅ | Bescherming tegen gegevensverlies vanwege een regionale fout 1 | Inschakelen per tabel. | Kosten van gegevensexport + Storage-blob of Event Hubs |
1 Gegevensexport biedt beveiliging tussen regio's als u logboeken exporteert naar een geografisch gerepliceerd opslagaccount. In het geval van een incident wordt een back-up gemaakt van eerder geëxporteerde gegevens en is er direct een back-up van de gegevens beschikbaar; verdere export kan echter mislukken, afhankelijk van de aard van het incident.
Waarschuwingen
Azure Monitor-waarschuwingen bieden een hoge mate van betrouwbaarheid zonder ontwerpbeslissingen. Voorwaarden waarbij een tijdelijk verlies van waarschuwingsgegevensverlies kan optreden, worden vaak beperkt door functies van andere Azure Monitor-onderdelen.
Controlelijst voor ontwerp
- Configureer waarschuwingsregels voor servicestatus.
- Configureer waarschuwingsregels voor resourcestatus.
- Vermijd servicelimieten voor waarschuwingsregels die grootschalige meldingen produceren.
Aanbevelingen voor configuratie
Aanbeveling | Voordeel |
---|---|
Configureer waarschuwingsregels voor servicestatus. | Servicestatus waarschuwingen u meldingen sturen voor storingen, serviceonderbrekingen, gepland onderhoud en beveiligingsadviezen. Zie Een waarschuwingsregel maken of bewerken. |
Configureer waarschuwingsregels voor resourcestatus. | Resource Health-waarschuwingen kunnen u bijna in realtime waarschuwen wanneer deze resources een wijziging in hun status hebben. Zie Een waarschuwingsregel maken of bewerken. |
Vermijd servicelimieten voor waarschuwingsregels die grootschalige meldingen produceren. | Als u waarschuwingsregels hebt die een groot aantal meldingen zouden verzenden, kunt u uw servicelimieten bereiken voor de service die u gebruikt om e-mail- of sms-meldingen te verzenden. Configureer programmatische acties of kies een alternatieve meldingsmethode of provider voor het afhandelen van grootschalige meldingen. Zie Servicelimieten voor meldingen. |
Virtuele machines
Controlelijst voor ontwerp
- Maak waarschuwingsregels voor beschikbaarheid voor Virtuele Azure-machines.
- Maak een heartbeatwaarschuwingsregel voor de agent om de status van de agent te controleren.
- Configureer gegevensverzameling en waarschuwingen voor het bewaken van de betrouwbaarheid van clientwerkstromen.
Aanbevelingen voor configuratie
Aanbeveling | Beschrijving |
---|---|
Maak waarschuwingsregels voor beschikbaarheid voor Virtuele Azure-machines. | Gebruik de metrische beschikbaarheidsgegevens (preview) om bij te houden wanneer een Virtuele Azure-machine wordt uitgevoerd. Hoewel u snel een beschikbaarheidswaarschuwingsregel voor een afzonderlijke machine kunt inschakelen met behulp van aanbevolen waarschuwingen, wordt met één waarschuwingsregel gericht op een resourcegroep of abonnement beschikbaarheidswaarschuwingen ingeschakeld voor alle VM's in dat bereik voor een bepaalde regio. Dit is eenvoudiger te beheren dan het maken van een waarschuwingsregel voor elke VIRTUELE machine en zorgt ervoor dat alle nieuwe VM's die in het bereik zijn gemaakt, automatisch worden bewaakt. Voor deze waarschuwingsregel hoeft de Azure Monitor-agent niet te worden geïnstalleerd op de VM, maar deze is niet beschikbaar voor VM's buiten Azure. |
Maak een heartbeatwaarschuwingsregel voor de agent om de status van de agent te controleren. | De Azure Monitor-agent verzendt elke minuut een heartbeat naar de Log Analytics-werkruimte. Gebruik een waarschuwingsregel voor zoeken in logboeken met behulp van de heartbeat van de agent om te worden gewaarschuwd wanneer een agent stopt met het verzenden van heartbeats. Dit is een indicator dat de VIRTUELE machine offline is of dat de agent niet in orde is en clientworkloads niet worden bewaakt. Deze waarschuwingsregel vereist dat de Azure Monitor-agent op de VM is geïnstalleerd en van toepassing is op zowel Azure- als niet-Azure-VM's. |
Configureer gegevensverzameling en waarschuwingen voor het bewaken van de betrouwbaarheid van clientwerkstromen. | Gebruik de informatie op Virtuele machines bewaken met Virtuele machines bewaken met Azure Monitor: verzamel gegevens om de verzameling van clientevenementen te configureren die potentiële problemen met uw clientworkloads aangeven. Gebruik de informatie op Virtuele machines bewaken met virtuele machines bewaken met Azure Monitor: waarschuwingen voor het maken van waarschuwingsregels om proactief op de hoogte te worden gesteld van mogelijke operationele problemen met uw clientworkloads. |
Containers
Controlelijst voor ontwerp
- Schakel scraping van metrische prometheus-gegevens voor uw cluster in.
- Schakel Container Insights in voor het verzamelen van logboeken en prestatiegegevens uit uw cluster.
- Maak diagnostische instellingen voor het verzamelen van besturingsvlaklogboeken voor AKS-clusters.
- Aanbevolen Prometheus-waarschuwingen inschakelen.
- Zorg voor de beschikbaarheid van de Log Analytics-werkruimte die containerinzichten ondersteunt.
Aanbevelingen voor configuratie
Aanbeveling | Voordeel |
---|---|
Schakel scraping van metrische prometheus-gegevens voor uw cluster in. | Schakel Prometheus in op uw cluster met de beheerde Azure Monitor-service voor Prometheus als u nog geen Prometheus-omgeving hebt. Gebruik Azure Managed Grafana om de verzamelde Prometheus-gegevens te analyseren. Zie Scraping van metrische Prometheus-gegevens aanpassen in de beheerde Azure Monitor-service voor Prometheus om extra metrische gegevens te verzamelen buiten de standaardconfiguratie. |
Schakel Container Insights in voor het verzamelen van logboeken en prestatiegegevens uit uw cluster. | Containerinzichten verzamelt stdout-/stderr-logboeken, prestatiegegevens en Kubernetes-gebeurtenissen van elk knooppunt in uw cluster. Het biedt dashboards en rapporten voor het analyseren van deze gegevens, inclusief de beschikbaarheid van uw knooppunten en andere onderdelen. Gebruik Log Analytics om beschikbaarheidsfouten in uw verzamelde logboeken te identificeren. |
Maak diagnostische instellingen voor het verzamelen van besturingsvlaklogboeken voor AKS-clusters. | AKS implementeert logboeken van besturingsvlakken als resourcelogboeken in Azure Monitor. Maak een diagnostische instelling om deze logboeken naar uw Log Analytics-werkruimte te verzenden, zodat u logboekquery's kunt gebruiken om fouten en problemen te identificeren die van invloed zijn op de beschikbaarheid. |
Aanbevolen Prometheus-waarschuwingen inschakelen. | Waarschuwingen in Azure Monitor melden u proactief wanneer er problemen worden gedetecteerd. Begin met een set aanbevolen Prometheus-waarschuwingsregels waarmee de meest voorkomende beschikbaarheids- en prestatieproblemen met uw cluster worden gedetecteerd. U kunt waarschuwingen voor zoeken in logboeken toevoegen met behulp van gegevens die zijn verzameld door Container Insights. |
Zorg voor de beschikbaarheid van de Log Analytics-werkruimte die containerinzichten ondersteunt. | Container insights is afhankelijk van een Log Analytics-werkruimte. Zie aanbevolen procedures voor Azure Monitor-logboeken voor aanbevelingen om de betrouwbaarheid van de werkruimte te garanderen. |