Monitorování online koncových bodů
Azure Machine Learning využívá integraci se službou Azure Monitor ke sledování a monitorování metrik a protokolů pro online koncové body. Metriky můžete zobrazit v grafech, porovnat mezi koncovými body a nasazeními, připnout na řídicí panely webu Azure Portal, nakonfigurovat výstrahy, dotazovat se z tabulek protokolů a odesílat protokoly do podporovaných cílů. Application Insights můžete také použít k analýze událostí z uživatelských kontejnerů.
Metriky: Pro metriky na úrovni koncového bodu, jako je latence požadavků, požadavky za minutu, nová připojení za sekundu a bajty sítě, můžete přejít k podrobnostem a zobrazit podrobnosti na úrovni nasazení nebo na úrovni stavu. Metriky na úrovni nasazení, jako je využití procesoru nebo GPU a využití paměti nebo disku, je také možné přejít k podrobnostem na úrovni instance. Azure Monitor umožňuje sledování těchto metrik v grafech a nastavení řídicích panelů a upozornění pro další analýzu.
Protokoly: Metriky můžete odesílat do pracovního prostoru služby Log Analytics, kde můžete dotazovat protokoly pomocí syntaxe dotazu Kusto. K dalšímu zpracování můžete také odesílat metriky do účtů služby Azure Storage nebo event Hubs. Kromě toho můžete použít vyhrazené tabulky protokolů pro protokoly související s online koncovým bodem, provozem a protokoly konzoly (kontejneru). Dotaz Kusto umožňuje složitou analýzu a spojování více tabulek.
Application Insights: Kurátorovaná prostředí zahrnují integraci s Application Insights a tuto integraci můžete povolit nebo zakázat při vytváření online nasazení. Integrované metriky a protokoly se odesílají do Application Insights a k další analýze můžete použít integrované funkce Application Insights (například živé metriky, vyhledávání transakcí, selhání a výkon).
V tomto článku získáte informace o těchto tématech:
- Volba správné metody pro zobrazení a sledování metrik a protokolů
- Zobrazení metrik pro váš online koncový bod
- Vytvoření řídicího panelu pro metriky
- Vytvoření upozornění na metriku
- Zobrazení protokolů pro váš online koncový bod
- Sledování metrik a protokolů pomocí Application Insights
Požadavky
- Nasazení online koncového bodu služby Azure Machine Learning
- Ke koncovému bodu musíte mít alespoň přístup čtenáře.
Metriky
Stránky metrik pro online koncové body nebo nasazení můžete zobrazit na webu Azure Portal. Snadný přístup k těmto stránkám metrik je prostřednictvím odkazů dostupných v uživatelském rozhraní studio Azure Machine Learning – konkrétně na kartě Podrobnosti na stránce koncového bodu. Na základě těchto odkazů přejdete na přesnou stránku metrik na webu Azure Portal pro koncový bod nebo nasazení. Případně můžete přejít na web Azure Portal a vyhledat stránku metrik pro koncový bod nebo nasazení.
Přístup ke stránkám metrik prostřednictvím odkazů dostupných v sadě Studio:
Přejděte na studio Azure Machine Learning.
V levém navigačním panelu vyberte stránku Koncové body .
Vyberte koncový bod kliknutím na jeho název.
Výběrem možnosti Zobrazit metriky v části Atributy koncového bodu otevřete stránku metrik koncového bodu na webu Azure Portal.
Výběrem možnosti Zobrazit metriky v části pro každé dostupné nasazení otevřete stránku metrik nasazení na webu Azure Portal.
Přístup k metrikám přímo z webu Azure Portal:
Přihlaste se k portálu Azure.
Přejděte do online koncového bodu nebo prostředku nasazení.
Online koncové body a nasazení jsou prostředky Azure Resource Manageru (ARM), které najdete tak, že přejdete do vlastnící skupiny prostředků. Vyhledejte typy prostředků, které jsou v online koncovém bodu služby Machine Learning, a online nasazení služby Machine Learning.
V levém sloupci vyberte Metriky.
Dostupné metriky
V závislosti na vybraném prostředku se metriky budou lišit. Metriky se pro online koncové body a online nasazení liší.
Metriky v oboru koncového bodu
Kategorie: Provoz
Metrika | Název v rozhraní REST API | Unit | Agregace | Dimenze | Časová zrnka | DS Export |
---|---|---|---|---|---|---|
Aktivní připojení Celkový počet souběžných připojení TCP aktivních z klientů. |
ConnectionsActive |
Počet | Průměr | <žádné> | PT1M | No |
Chyby shromažďování dat za minutu Počet událostí shromažďování dat vynechaných za minutu |
DataCollectionErrorsPerMinute |
Počet | Minimum, Maximum, Průměr | deployment , , reason type |
PT1M | No |
Události shromažďování dat za minutu Počet událostí shromažďování dat zpracovaných za minutu |
DataCollectionEventsPerMinute |
Počet | Minimum, Maximum, Průměr | deployment , type |
PT1M | No |
Bajty sítě Bajty za sekundu obsluhované pro koncový bod. |
NetworkBytes |
BytesPerSecond | Průměr | <žádné> | PT1M | No |
Nová připojení za sekundu Průměrný počet nových připojení TCP za sekundu vytvořených z klientů. |
NewConnectionsPerSecond |
CountPerSecond | Průměr | <žádné> | PT1M | No |
Latence požadavku Průměrný úplný interval potřebný k odpovědi na žádost v milisekundách |
RequestLatency |
Milisekundy | Průměr | deployment |
PT1M | Ano |
Latence požadavku P50 Průměrná latence požadavku P50 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období |
RequestLatency_P50 |
Milisekundy | Průměr | deployment |
PT1M | Ano |
Latence požadavku P90 Průměrná latence požadavků P90 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období |
RequestLatency_P90 |
Milisekundy | Průměr | deployment |
PT1M | Ano |
Latence požadavku P95 Průměrná latence požadavků P95 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období |
RequestLatency_P95 |
Milisekundy | Průměr | deployment |
PT1M | Ano |
Latence požadavku P99 Průměrná latence požadavků P99 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období |
RequestLatency_P99 |
Milisekundy | Průměr | deployment |
PT1M | Ano |
Žádosti za minutu Počet požadavků odeslaných do online koncového bodu do minuty |
RequestsPerMinute |
Počet | Průměr | deployment , statusCode , , statusCodeClass modelStatusCode |
PT1M | No |
Omezování šířky pásma
Šířka pásma se omezí, pokud dojde k překročení limitů kvót pro spravované online koncové body. Další informace o limitech najdete v článku o omezeních pro online koncové body. Určení, jestli jsou požadavky omezené:
- Monitorování metriky Síťové bajty
- Přívěsy odpovědí budou mít pole:
ms-azureml-bandwidth-request-delay-ms
ams-azureml-bandwidth-response-delay-ms
. Hodnoty polí jsou zpoždění v milisekundách omezování šířky pásma.
Další informace najdete v tématu Problémy s omezením šířky pásma.
Metriky v oboru nasazení
Kategorie: Zdroj
Metrika | Název v rozhraní REST API | Unit | Agregace | Dimenze | Časová zrnka | DS Export |
---|---|---|---|---|---|---|
Procento využití paměti procesoru Procento využití paměti v instanci Využití se hlásí v minutových intervalech. |
CpuMemoryUtilizationPercentage |
Procenta | Minimum, Maximum, Průměr | instanceId |
PT1M | Ano |
Procento využití procesoru Procento využití procesoru v instanci Využití se hlásí v minutových intervalech. |
CpuUtilizationPercentage |
Procenta | Minimum, Maximum, Průměr | instanceId |
PT1M | Ano |
Chyby shromažďování dat za minutu Počet událostí shromažďování dat vynechaných za minutu |
DataCollectionErrorsPerMinute |
Počet | Minimum, Maximum, Průměr | instanceId , , reason type |
PT1M | No |
Události shromažďování dat za minutu Počet událostí shromažďování dat zpracovaných za minutu |
DataCollectionEventsPerMinute |
Počet | Minimum, Maximum, Průměr | instanceId , type |
PT1M | No |
Kapacita nasazení Počet instancí v nasazení. |
DeploymentCapacity |
Počet | Minimum, Maximum, Průměr | instanceId , State |
PT1M | No |
Využití disku Procento využití disku v instanci Využití se hlásí v minutových intervalech. |
DiskUtilization |
Procenta | Minimum, Maximum, Průměr | instanceId , disk |
PT1M | Ano |
Energie GPU v Joulesu Intervalová energie v Joules na uzlu GPU. Energie se hlásí v minutových intervalech. |
GpuEnergyJoules |
Počet | Minimum, Maximum, Průměr | instanceId |
PT1M | No |
Procento využití paměti GPU Procento využití paměti GPU v instanci Využití se hlásí v minutových intervalech. |
GpuMemoryUtilizationPercentage |
Procenta | Minimum, Maximum, Průměr | instanceId |
PT1M | Ano |
Procento využití GPU Procento využití GPU v instanci Využití se hlásí v minutových intervalech. |
GpuUtilizationPercentage |
Procenta | Minimum, Maximum, Průměr | instanceId |
PT1M | Ano |
Kategorie: Provoz
Metrika | Název v rozhraní REST API | Unit | Agregace | Dimenze | Časová zrnka | DS Export |
---|---|---|---|---|---|---|
Latence požadavku P50 Průměrná latence požadavku P50 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období |
RequestLatency_P50 |
Milisekundy | Průměr | <žádné> | PT1M | Ano |
Latence požadavku P90 Průměrná latence požadavků P90 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období |
RequestLatency_P90 |
Milisekundy | Průměr | <žádné> | PT1M | Ano |
Latence požadavku P95 Průměrná latence požadavků P95 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období |
RequestLatency_P95 |
Milisekundy | Průměr | <žádné> | PT1M | Ano |
Latence požadavku P99 Průměrná latence požadavků P99 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období |
RequestLatency_P99 |
Milisekundy | Průměr | <žádné> | PT1M | Ano |
Žádosti za minutu Počet žádostí odeslaných do online nasazení během minuty |
RequestsPerMinute |
Počet | Průměr | envoy_response_code |
PT1M | No |
Vytváření řídicích panelů a upozornění
Azure Monitor umožňuje vytvářet řídicí panely a výstrahy na základě metrik.
Vytváření řídicích panelů a vizualizace dotazů
Na webu Azure Portal můžete vytvářet vlastní řídicí panely a vizualizovat metriky z více zdrojů, včetně metrik pro váš online koncový bod. Další informace o vytvářenířídicích
Vytváření výstrah
Můžete také vytvořit vlastní upozornění, která vás upozorní na důležité aktualizace stavu vašeho online koncového bodu:
V pravém horním rohu stránky metrik vyberte Nové pravidlo upozornění.
Vyberte název podmínky, která určuje, kdy má být upozornění aktivováno.
Vyberte Přidat skupiny akcí Vytvořit skupiny> akcí a určete, co se má stát při aktivaci upozornění.
Zvolte Vytvořit pravidlo upozornění a dokončete vytváření upozornění.
Další informace najdete v tématu Vytvoření pravidel upozornění služby Azure Monitor.
Povolení automatického škálování na základě metrik
Automatické škálování nasazení můžete povolit pomocí metrik pomocí uživatelského rozhraní nebo kódu. Při použití kódu (rozhraní příkazového řádku nebo sady SDK) můžete použít ID metrik uvedených v tabulce dostupných metrik v podmínce pro aktivaci automatického škálování. Další informace najdete v tématu Automatické škálování online koncových bodů.
Protokoly
Pro online koncové body je možné povolit tři protokoly:
AmlOnlineEndpointTrafficLog: Pokud chcete zkontrolovat informace o vaší žádosti, můžete se rozhodnout povolit protokoly provozu. Tady jsou některé případy:
Pokud odpověď není 200, zkontrolujte hodnotu sloupce ResponseCodeReason a podívejte se, co se stalo. V článku Řešení potíží s online koncovými body také zkontrolujte důvod v části Stavové kódy HTTPS.
Kód odpovědi a důvod odpovědi modelu můžete zkontrolovat ze sloupce ModelStatusCode a ModelStatusReason.
Chcete zkontrolovat dobu trvání požadavku, jako je celková doba trvání, doba trvání požadavku nebo odpovědi a zpoždění způsobené omezováním sítě. Můžete to zkontrolovat v protokolech a zobrazit latenci rozpisu.
Pokud chcete zkontrolovat, kolik požadavků nebo neúspěšných požadavků nedávno selhalo. Můžete také povolit protokoly.
AmlOnlineEndpointConsoleLog: Obsahuje protokoly, které kontejnery vypíše do konzoly. Tady jsou některé případy:
Pokud se kontejner nepodaří spustit, může být protokol konzoly užitečný pro ladění.
Monitorujte chování kontejneru a ujistěte se, že jsou všechny požadavky správně zpracovány.
V protokolu konzoly můžete zapisovat ID žádostí. Připojte se k ID požadavku, AmlOnlineEndpointConsoleLog a AmlOnlineEndpointTrafficLog v pracovním prostoru služby Log Analytics, můžete trasovat požadavek ze vstupního bodu sítě online koncového bodu do kontejneru.
Tento protokol můžete použít také k analýze výkonu při určování času potřebného modelem ke zpracování jednotlivých požadavků.
AmlOnlineEndpointEventLog: Obsahuje informace o události týkající se životního cyklu kontejneru. V současné době poskytujeme informace o následujících typech událostí:
Název Zpráva BackOff Opětovné restartování neúspěšného kontejneru Natažený Image kontejneru "<IMAGE_NAME>" už na počítači existuje. Zabití Sonda odezvy na serveru odvození kontejneru selhala, bude restartována. Vytvořeno Vytvoření image kontejneru – fetcher Vytvořeno Vytvoření serveru pro odvození kontejneru Vytvořeno Vytvoření modelu kontejneru – připojení LivenessProbeFailed Sonda aktivity selhala: <FAILURE_CONTENT> ReadinessProbeFailed Sonda připravenosti selhala: <FAILURE_CONTENT> Zahájeno Spuštěná image kontejneru – fetcher Zahájeno Spuštěno odvození kontejneru - server Zahájeno Spuštěné připojení modelu kontejneru Zabití Zastavení odvozování kontejneru – server Zabití Zastavení připojení modelu kontejneru
Jak povolit nebo zakázat protokoly
Důležité
Protokolování používá Azure Log Analytics. Pokud aktuálně nemáte pracovní prostor služby Log Analytics, můžete ho vytvořit pomocí postupu v části Vytvoření pracovního prostoru služby Log Analytics na webu Azure Portal.
Na webu Azure Portal přejděte do skupiny prostředků, která obsahuje váš koncový bod, a pak vyberte koncový bod.
V části Monitorování na levé straně stránky vyberte Nastavení diagnostiky a pak Přidejte nastavení.
Vyberte kategorie protokolů, které chcete povolit, vyberte Možnost Odeslat do pracovního prostoru služby Log Analytics a pak vyberte pracovní prostor služby Log Analytics, který chcete použít. Nakonec zadejte název nastavení diagnostiky a vyberte Uložit.
Důležité
Povolení připojení k pracovnímu prostoru služby Log Analytics může trvat až hodinu. Než budete pokračovat dalším postupem, počkejte hodinu.
Odešlete žádosti o bodování do koncového bodu. Tato aktivita by měla v protokolech vytvářet položky.
Z vlastností online koncového bodu nebo pracovního prostoru služby Log Analytics vyberte protokoly nalevo od obrazovky.
Zavřete dialogové okno Dotazy, které se automaticky otevře, a potom poklikejte na AmlOnlineEndpointConsoleLog. Pokud ho nevidíte, použijte vyhledávací pole.
Vyberte Spustit.
Vzorové dotazy
Ukázkové dotazy najdete na kartě Dotazy při prohlížení protokolů. Vyhledejte koncový bod Online a vyhledejte ukázkové dotazy.
Podrobnosti o sloupci protokolu
Následující tabulky obsahují podrobnosti o datech uložených v jednotlivých protokolech:
AmlOnlineEndpointTrafficLog
Vlastnost | Popis |
---|---|
metoda | Požadovaná metoda od klienta. |
Cesta | Požadovaná cesta od klienta. |
SubscriptionId | ID předplatného strojového učení online koncového bodu. |
AzureMLWorkspaceId | ID pracovního prostoru strojového učení online koncového bodu. |
AzureMLWorkspaceName | Název pracovního prostoru strojového učení online koncového bodu. |
Název koncového bodu | Název online koncového bodu. |
DeploymentName | Název online nasazení. |
Protokol | Protokol požadavku. |
ResponseCode | Konečný kód odpovědi vrácený klientovi. |
ResponseCodeReason | Poslední důvod kódu odpovědi vrácený klientovi. |
ModelStatusCode | Stavový kód odpovědi z modelu. |
ModelStatusReason | Důvod stavu odpovědi z modelu. |
RequestPayloadSize | Celkový počet bajtů přijatých od klienta |
ResponsePayloadSize | Celkový počet bajtů odeslaných zpět klientovi. |
UserAgent | Hlavička uživatelského agenta požadavku, včetně komentářů, ale zkrácená na maximálně 70 znaků. |
XRequestId | ID požadavku vygenerované službou Azure Machine Learning pro interní trasování |
XMSClientRequestId | ID sledování vygenerované klientem. |
TotalDurationMs | Doba trvání v milisekundách od počátečního času požadavku do posledního bajtu odpovědi odeslaného zpět klientovi. Pokud se klient odpojil, měří se od času spuštění až po dobu odpojení klienta. |
RequestDurationMs | Doba trvání v milisekundách od počátečního času požadavku do posledního bajtu požadavku přijatého od klienta. |
ResponseDurationMs | Doba trvání v milisekundách od počátečního času požadavku do prvního bajtu odpovědi načteného z modelu. |
RequestThrottlingDelayMs | Zpoždění v milisekundách při přenosu dat požadavku kvůli omezování sítě |
ResponseThrottlingDelayMs | Zpoždění v milisekundách při přenosu dat odpovědí kvůli omezování sítě |
AmlOnlineEndpointConsoleLog
Vlastnost | Popis |
---|---|
TimeGenerated | Časové razítko (UTC) při vygenerování protokolu |
OperationName | Operace přidružená k záznamu protokolu. |
InstanceId | ID instance, která vygenerovala tento záznam protokolu. |
DeploymentName | Název nasazení přidruženého k záznamu protokolu. |
ContainerName | Název kontejneru, ve kterém se protokol vygeneroval. |
Zpráva | Obsah protokolu. |
AmlOnlineEndpointEventLog
Vlastnost | Popis |
---|---|
TimeGenerated | Časové razítko (UTC) při vygenerování protokolu |
OperationName | Operace přidružená k záznamu protokolu. |
InstanceId | ID instance, která vygenerovala tento záznam protokolu. |
DeploymentName | Název nasazení přidruženého k záznamu protokolu. |
Název | Název události. |
Zpráva | Obsah události. |
Použití Application Insights
Kurátorovaná prostředí zahrnují integraci s Application Insights a při vytváření online nasazení můžete tuto integraci povolit nebo zakázat. Integrované metriky a protokoly se odesílají do Application Insights a k další analýze můžete použít integrované funkce Application Insights (například živé metriky, vyhledávání transakcí, selhání a výkon).
Další informace najdete v přehledu Application Insights.
V sadě Studio můžete pomocí karty Monitorování na stránce online koncového bodu zobrazit grafy monitorování aktivit vysoké úrovně pro spravovaný online koncový bod. Pokud chcete použít kartu monitorování, musíte při vytváření koncového bodu vybrat povolit shromažďování diagnostických dat a shromažďování dat Application Insight.
Související obsah
- Zjistěte, jak zobrazit náklady na nasazený koncový bod.
- Přečtěte si další informace o Průzkumníku metrik.