Monitorování shromažďování dat DCR ve službě Azure Monitor

Článek
12/19/2024

Tento článek obsahuje podrobné metriky a protokoly, které můžete použít k monitorování výkonu a řešení potíží souvisejících se shromažďováním dat ve službě Azure Monitor. Tato telemetrie je aktuálně dostupná pro scénáře shromažďování dat definované pravidly shromažďování dat (DCR), jako jsou agent Azure Monitor a rozhraní API pro příjem protokolů.

Důležité

Tento článek se týká pouze scénářů shromažďování dat, které používají řadiče domény, včetně následujících:

Protokoly shromážděné pomocí agenta služby Azure Monitor (AMA)
Protokoly ingestované pomocí rozhraní API pro příjem protokolů
Protokoly shromážděné jinými metodami, které používají dcR transformace pracovního prostoru

Informace o monitorování a řešení potíží, které můžou být dostupné, najdete v dokumentaci k jiným scénářům.

Diagnostické funkce DCR zahrnují metriky a protokoly chyb generované během zpracování protokolů. Metriky DCR poskytují informace o objemu přijatých dat, počtu a povaze jakýchkoli chyb zpracování a statistikách souvisejících s transformací dat. Protokoly chyb DCR se generují vždy, když zpracování dat není úspěšné a data nedosahují svého cíle.

Protokoly chyb DCR

Protokoly chyb se generují, když data dosáhnou kanálu příjmu dat služby Azure Monitor, ale nedostanou se k cíli. Mezi příklady chybových podmínek patří:

Chyby doručení protokolu
Chyby transformace , kdy struktura protokolů zneplatňuje transformaci KQL
Volání rozhraní API pro příjem protokolů:
- s jakoukoli jinou odpovědí HTTP než 200/202
- s datovou částí obsahující poškozenými daty
- s datovou částí nad všemi limity příjmu dat
- omezování kvůli překročení nadlimitního využití limitů volání rozhraní API

Aby se zabránilo nadměrnému protokolování trvalých chyb souvisejících se stejným tokem dat, některé chyby se zaprotokolují pouze omezený početkrát za každou hodinu následovanou souhrnnou chybovou zprávou. Chyba se pak ztlumí do konce hodiny. Počet zaprotokolovaných chyb se může lišit v závislosti na oblasti, ve které je řadič domény nasazený.

Některé chyby příjmu protokolů nebudou protokolovány, protože není možné je přidružit k řadiči domény. Následující chyby nemusí být zaprotokolovány:

Selhání způsobená poškozeným identifikátorem URI volání (kód odpovědi HTTP 404)
Některé vnitřní chyby serveru (kód odpovědi HTTP 500)

Povolení protokolů chyb DCR

Protokoly chyb DCR se implementují jako protokoly prostředků ve službě Azure Monitor. Povolte shromažďování protokolů vytvořením nastavení diagnostiky pro řadič domény. Každý řadič domény bude vyžadovat vlastní nastavení diagnostiky. Podrobný postup najdete v tématu Vytvoření nastavení diagnostiky ve službě Azure Monitor . Vyberte chyby protokolu kategorií a odešlete do pracovního prostoru služby Log Analytics. Můžete vybrat stejný pracovní prostor, který používá řadič domény, nebo můžete chtít sloučit všechny protokoly chyb v jednom pracovním prostoru.

Načtení protokolů chyb DCR

Protokoly chyb se zapisují do tabulky DCRLogErrors v pracovním prostoru služby Log Analytics, který jste zadali v nastavení diagnostiky. Následují ukázkové dotazy, které můžete v Log Analytics použít k načtení těchto protokolů.

Načtení všechprotokolůch

DCRLogErrors
| where _ResourceId == "/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/my-resource-group/providers/microsoft.insights/datacollectionrules/my-dcr"

Načtení všech protokolů chyb pro konkrétní vstupní datový proud v určitém řadiči domény

DCRLogErrors
| where _ResourceId == "/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/my-resource-group/providers/microsoft.insights/datacollectionrules/my-dcr"
| where InputStreamId == "Custom-MyTable_CL"

Metriky DCR

Metriky DCR se shromažďují automaticky pro všechny řadiče domény a můžete je analyzovat pomocí Průzkumníka metrik, jako jsou metriky platformy pro další prostředky Azure. Vstupní datový proud je součástí dimenze, takže pokud máte DCR s více vstupními datovými proudy, můžete je analyzovat filtrováním nebo rozdělením. Některé metriky zahrnují další dimenze, jak je znázorněno v následující tabulce.

Metrika	Dimenze	Popis
Protokoly bajtů příjmu dat za minutu	Vstupní datový proud	Celkový počet bajtů přijatých za minutu
Protokoly žádostí o příjem dat za minutu	Vstupní datový proud Kód odpovědi protokolu HTTP	Počet přijatých hovorů za minutu
Zaznamenává zahozené řádky za minutu.	Vstupní datový proud	Počet řádků protokolu vynechaných během zpracování za minutu To zahrnuje řádky vyřazené z důvodu kritérií filtrování v transformaci KQL i kvůli chybám.
Protokoly přijaté řádky za minutu	Vstupní datový proud	Počet přijatých řádků protokolu pro zpracování za minutu
Doba trvání transformace protokolů za minutu	Vstupní datový proud	Průměrný modul runtime transformace KQL za minutu Představuje efektivitu kódu transformace KQL. Toky dat s delší dobou běhu transformace můžou zaznamenat zpoždění při zpracování dat a vyšší latenci dat.
Chyby transformace protokolů za minutu	Vstupní datový proud Typ chyby	Počet chyb zpracování zjištěných za minutu

Monitorování příjmu protokolů

Následující signály můžou být užitečné pro monitorování stavu shromažďování protokolů pomocí řadičů domény. Vytvořte pravidla upozornění pro identifikaci těchto podmínek.

Signál	Možné příčiny a akce
Nové položky v `DCRErrorLogs` nebo náhlé změně `Log Transform Errors`.	– Problémy s nastavením rozhraní API pro příjem protokolů, jako je ověřování, přístup k DCR nebo DCE, problémy s datovou částí volání – Změny datové struktury způsobují selhání transformace KQL. – Změny v konfiguraci cíle dat způsobují selhání doručení dat.
Náhlá změna `Logs Ingestion Bytes per Min`	- Změny konfigurace příjmu protokolů v klientovi, včetně nastavení AMA. - Změny struktury odeslaných protokolů.
Náhlé změny poměru mezi `Logs Ingestion Bytes per Min` a `Logs Rows Received per Min`	- Změny struktury odeslaných protokolů. Zkontrolujte změny a ujistěte se, že se data správně zpracovávají pomocí transformace KQL.
Náhlá změna `Logs Transformation Duration per Min`	- Změny struktury protokolů ovlivňující efektivitu kritérií filtrování protokolů nastavených v transformaci KQL. Zkontrolujte změny a ujistěte se, že se data správně zpracovávají pomocí transformace KQL.
`Logs Ingestion Requests per Min` nebo `Logs Ingestion Bytes per Min` přistupují k limitům služby rozhraní API pro příjem protokolů.	– Zkontrolujte a optimalizujte konfiguraci DCR, abyste se vyhnuli omezování.

Výstrahy

Místo reaktivního řešení problémů vytvořte pravidla upozornění, která budou proaktivně upozorněna, když dojde k potenciálnímu chybovému stavu. Následující tabulka obsahuje příklady pravidel upozornění, která můžete vytvořit pro monitorování příjmu protokolů.

Podmínka	Podrobnosti výstrahy
Náhlé změny řádků vynechaných	Pravidlo upozornění na metriku s využitím dynamické prahové hodnoty pro `Logs Rows Dropped per Min`.
Počet volání rozhraní API, která přistupují k limitům služby	Pravidlo upozornění na metriku využívající statickou prahovou hodnotu pro `Logs Ingestion Requests per Min`. Nastavte prahovou hodnotu téměř 12 000, což je limit služby pro maximální počet požadavků za minutu na DCR.
Protokoly chyb	Upozornění dotazu protokolu pomocí `DCRLogErrors`. K upozorňování při každém zaprotokolování chyb použijte míru řádků tabulky a prahovou hodnotu 1.

Sdílet prostřednictvím