Sdílet prostřednictvím


Postupy: Onboarding dat metriky do Advisoru pro metriky

Důležité

Od 20. září 2023 nebudete moct vytvářet nové prostředky Advisoru pro metriky. Služba Metrics Advisor se 1. října 2026 vyřadí z provozu.

V tomto článku se dozvíte o onboardingu dat do služby Metrics Advisor.

Požadavky a konfigurace schématu dat

Azure AI Metrics Advisor je služba pro detekci anomálií časových řad, diagnostiku a analýzu. Jako služba využívající AI používá vaše data k trénování použitého modelu. Služba přijímá tabulky agregovaných dat s následujícími sloupci:

  • Míra (povinná): Míra je základní nebo jednotkově specifický termín a kvantifikovatelná hodnota metriky. Znamená to, že jeden nebo více sloupců obsahujících číselné hodnoty.
  • Časové razítko (volitelné): Nula nebo jeden sloupec s typem DateTime nebo String. Pokud tento sloupec není nastavený, časové razítko se nastaví jako počáteční čas každého období příjmu dat. Časové razítko naformátujte následujícím způsobem: yyyy-MM-ddTHH:mm:ssZ.
  • Dimenze (volitelné): Dimenze je jedna nebo více hodnot kategorií. Kombinace těchto hodnot identifikuje konkrétní jednovariátní časovou řadu (například zemi/oblast, jazyk a tenanta). Sloupce dimenzí můžou být libovolného datového typu. Při práci s velkými objemy sloupců a hodnot buďte opatrní, abyste zabránili zpracování nadměrného počtu dimenzí.

Pokud používáte zdroje dat, jako je Azure Data Lake Storage nebo Azure Blob Storage, můžete data agregovat tak, aby odpovídala očekávanému schématu metrik. Důvodem je to, že tyto zdroje dat používají soubor jako vstup metrik.

Pokud používáte zdroje dat, jako je Azure SQL nebo Azure Data Explorer, můžete agregační funkce použít k agregaci dat do očekávaného schématu. Důvodem je to, že tyto zdroje dat podporují spuštění dotazu pro získání dat metrik ze zdrojů.

Pokud si nejste jistí některými termíny, přečtěte si glosář.

Vyhněte se načítání částečných dat

Částečná data jsou způsobená nekonzistencí mezi daty uloženými ve službě Metrics Advisor a zdrojem dat. K tomu může dojít, když se zdroj dat aktualizuje po dokončení načítání dat službou Metrics Advisor. Metrics Advisor načítá jenom data z daného zdroje dat jednou.

Pokud se například metrika nasadila do Advisoru pro monitorování. Metrics Advisor úspěšně vezme data metrik v časovém razítku A a provede detekci anomálií. Pokud se však po ingestování dat metriky určitého časového razítka A aktualizovala. Nová datová hodnota se nenačte.

Pokud chcete zmírnit nekonzistence, můžete se pokusit znovu doplnit historická data (popsaná později), ale neaktivuje se nová upozornění na anomálie, pokud už byla aktivována upozornění na tyto časové body. Tento proces může do systému přidat další úlohu a není automatický.

Pokud se chcete vyhnout načítání částečných dat, doporučujeme dva přístupy:

  • Generování dat v jedné transakci:

    Zajistěte, aby hodnoty metrik pro všechny kombinace dimenzí ve stejném časovém razítku byly uloženy do zdroje dat v jedné transakci. V předchozím příkladu počkejte, až budou data ze všech zdrojů dat připravená, a pak je načtěte do Advisoru pro metriky v jedné transakci. Nástroj Metrics Advisor může datový kanál pravidelně dotazovat, dokud se data úspěšně (nebo částečně nenačtou).

  • Pozdržte příjem dat nastavením správné hodnoty parametru posunu času příjmu dat:

    Nastavte parametr posunu času příjmu dat pro datový kanál tak, aby se pozdržil příjem dat, dokud nebudou data plně připravena. To může být užitečné pro některé zdroje dat, které nepodporují transakce, jako je Azure Table Storage. Podrobnosti najdete v upřesňujících nastaveních .

Začněte přidáním datového kanálu.

Po přihlášení k portálu Metrics Advisor a výběru pracovního prostoru klikněte na Začínáme. Potom na hlavní stránce pracovního prostoru klikněte v nabídce vlevo na Přidat datový kanál .

Přidání nastavení připojení

1. Základní nastavení

Dále zadáte sadu parametrů pro připojení zdroje dat časové řady.

  • Typ zdroje: Typ zdroje dat, ve kterém jsou uložena data časové řady.
  • Členitost: Interval mezi po sobě jdoucími datovými body v datech časových řad. Služba Metrics Advisor v současné době podporuje: ročně, měsíčně, týdně, denně, každou hodinu, za minutu a vlastní. Nejnižší interval, který možnost přizpůsobení podporuje, je 60 sekund.
    • Sekundy: Počet sekund, kdy je hodnota granularityName nastavená na Přizpůsobit.
  • Ingestování dat od (UTC):: Počáteční čas zahájení podle směrného plánu pro příjem dat. startOffsetInSeconds se často používá k přidání posunu, který pomáhá s konzistencí dat.

2. Zadejte připojovací řetězec

Dále budete muset zadat informace o připojení pro zdroj dat. Podrobnosti o dalších polích a připojení různých typů zdrojů dat najdete v tématu Postupy: Připojení různých zdrojů dat.

3. Zadání dotazu pro jedno časové razítko

Podrobnosti o různých typech zdrojů dat najdete v tématu Postupy: Připojení různých zdrojů dat.

Načtení dat

Po zadání připojovací řetězec a řetězce dotazu vyberte Načíst data. V rámci této operace nástroj Metrics Advisor zkontroluje připojení a oprávnění k načtení dat, zkontroluje nezbytné parametry (@IntervalStart a @IntervalEnd) které je potřeba použít v dotazu, a zkontroluje název sloupce ze zdroje dat.

Pokud v tomto kroku dojde k chybě:

  1. Nejprve zkontrolujte, jestli je připojovací řetězec platný.
  2. Pak zkontrolujte, jestli nemáte dostatečná oprávnění a jestli je IP adresa pracovního procesu příjmu udělená.
  3. Pak zkontrolujte, jestli jsou požadované parametry (@IntervalStart a @IntervalEnd) které se použijí v dotazu.

Konfigurace schématu

Po načtení schématu dat vyberte příslušná pole.

Pokud je časové razítko datového bodu vynecháno, nástroj Metrics Advisor místo toho použije časové razítko při ingestování datového bodu. Pro každý datový kanál můžete jako časové razítko zadat maximálně jeden sloupec. Pokud se zobrazí zpráva, že sloupec nelze zadat jako časové razítko, zkontrolujte dotaz nebo zdroj dat a zjistěte, jestli výsledek dotazu obsahuje více časových razítek – nejen v datech náhledu. Při příjmu dat může Nástroj Metrics Advisor využívat pouze jeden blok dat (například jeden den, jednu hodinu – podle členitosti) dat časových řad z daného zdroje pokaždé.

Výběr Popis Notes
Zobrazovaný název Název, který se má zobrazit v pracovním prostoru místo původního názvu sloupce. Nepovinné.
Timestamp Časové razítko datového bodu. Pokud tento parametr vynecháte, použije Advisor časové razítko při ingestování datového bodu. Pro každý datový kanál můžete jako časové razítko zadat maximálně jeden sloupec. Nepovinné. Je třeba zadat maximálně jeden sloupec. Pokud se zobrazí sloupec, který nelze zadat jako chybu časového razítka , zkontrolujte dotaz nebo zdroj dat, jestli nejsou duplicitní časové razítka.
Měřit Číselné hodnoty v datovém kanálu. Pro každý datový kanál můžete zadat více měr, ale jako míru je třeba vybrat alespoň jeden sloupec. Měla by být zadána alespoň s jedním sloupcem.
Dimenze Kategorické hodnoty. Kombinace různých hodnot identifikuje určitou časovou řadu s jednou dimenzí, například země/oblast, jazyk, tenant. Jako rozměry můžete vybrat nula nebo více sloupců. Poznámka: Při výběru sloupce bez řetězce jako dimenze buďte opatrní. Nepovinné.
Ignorovat Ignorujte vybraný sloupec. Nepovinné. Pro podporu zdrojů dat pomocí dotazu k získání dat neexistuje žádná možnost Ignorovat.

Pokud chcete sloupce ignorovat, doporučujeme aktualizovat dotaz nebo zdroj dat, aby se tyto sloupce vyloučily. Sloupce můžete také ignorovat pomocí funkce Ignorovat sloupce a pak ignorovat konkrétní sloupce. Pokud by sloupec měl být dimenze a omylem je nastaven jako Ignorováno, může Advisor pro metriky ingestovat částečná data. Předpokládejme například, že data z dotazu jsou následující:

ID řádku Časové razítko Země/oblast Jazyk domácnosti
0 2019/11/10 Čína ZH-CN 10000
2 2019/11/10 Čína EN-US 1000
3 2019/11/10 (USA) ZH-CN 12000
4 2019/11/11 (USA) EN-US 23000
... ... ... ... ...

Pokud je země dimenze a jazyk je nastaven jako Ignorováno, první a druhý řádek bude mít stejné dimenze pro časové razítko. Nástroj Metrics Advisor bude libovolně používat jednu hodnotu ze dvou řádků. Nástroj Metrics Advisor nebude v tomto případě agregovat řádky.

Po konfiguraci schématu vyberte Ověřit schéma. V rámci této operace nástroj Metrics Advisor provede následující kontroly:

  • Určuje, jestli časové razítko dotazovaných dat spadá do jednoho intervalu.
  • Určuje, jestli se pro stejnou kombinaci dimenzí v jednom intervalu metriky vrátí duplicitní hodnoty.

Automatické zahrnovací nastavení

Důležité

Pokud chcete povolit analýzu původní příčiny a další diagnostické funkce, je potřeba nakonfigurovat nastavení automatického zahrnování. Po povolení nelze nastavení automatického uvedení změnit.

Nástroj Metrics Advisor může během příjmu dat automaticky provádět agregaci (například SUM, MAX, MIN) jednotlivých dimenzí a pak vytvoří hierarchii, která se použije v analýze kořenových případů a dalších diagnostických funkcích.

Zvažte následující scénáře:

  • "Nepotřebuji zahrnout průběžnou analýzu dat."

    Nemusíte používat roll-up Advisor pro metriky.

  • Data už jsou zahrnutá a hodnota dimenze je reprezentovaná hodnotou NULL nebo Empty (Default), NULL only, Others.

    Tato možnost znamená, že nástroj Metrics Advisor nemusí zahrnovat data, protože řádky jsou už sečtené. Pokud například vyberete pouze hodnotu NULL, bude druhý datový řádek v následujícím příkladu považován za agregaci všech zemí a jazyka EN-US; čtvrtý datový řádek, který má prázdnou hodnotu pro Zemi , ale bude považován za běžný řádek, který může znamenat neúplná data.

    Země/oblast Jazyk domácnosti
    Čína ZH-CN 10000
    (NULL) EN-US 999999
    (USA) EN-US 12000
    EN-US 5000
  • Potřebuji, aby nástroj Metrics Advisor zahrnoval data výpočtem součtu, maxima, min. nebo avg/count a reprezentoval je {some string}.

    Některé zdroje dat, jako je Azure Cosmos DB nebo Azure Blob Storage, nepodporují určité výpočty, jako je seskupení podle nebo datová krychle. Metrics Advisor poskytuje možnost automatického generování datové krychle během příjmu dat. Tato možnost znamená, že potřebujete nástroj Metrics Advisor k výpočtu součtu pomocí algoritmu, který jste vybrali, a použití zadaného řetězce k reprezentaci uvedení v Advisoru pro metriky. Tím se nezmění žádná data ve zdroji dat. Předpokládejme například, že máte sadu časových řad, která představuje metriky Prodeje s dimenzí (Země, Oblast). U daného časového razítka může vypadat takto:

    Země Oblast Prodej
    Kanada Alberta 100
    Kanada Britská Kolumbie 500
    USA Montana 100

    Po povolení automatického zahrnování se součtem bude Nástroj Metrics Advisor počítat kombinace dimenzí a sčítat metriky během příjmu dat. Výsledek může být následující:

    Země Oblast Prodej
    Kanada Alberta 100
    NULL Alberta 100
    Kanada Britská Kolumbie 500
    NULL Britská Kolumbie 500
    USA Montana 100
    NULL Montana 100
    NULL NULL 700
    Kanada NULL 600
    USA NULL 100

    (Country=Canada, Region=NULL, Sales=600) znamená, že součet prodejů v Kanadě (ve všech oblastech) je 600.

    Následuje transformace v jazyce SQL.

    SELECT
        dimension_1,
        dimension_2,
        ...
        dimension_n,
        sum (metrics_1) AS metrics_1,
        sum (metrics_2) AS metrics_2,
        ...
        sum (metrics_n) AS metrics_n
    FROM
        each_timestamp_data
    GROUP BY
        CUBE (dimension_1, dimension_2, ..., dimension_n);
    

    Než použijete funkci automatického uvedení, zvažte následující:

    • Pokud chcete použít sumu k agregaci dat, ujistěte se, že metriky jsou v jednotlivých dimenzích sčítá. Tady je několik příkladů nedatných metrik:
      • Metriky založené na zlomcích To zahrnuje poměr, procento atd. Například byste neměli přidávat míru nezaměstnanosti každého státu, abyste vypočítali míru nezaměstnanosti celé země/oblasti.
      • Překrývají se v dimenzi. Například byste neměli přidávat počet lidí do každého sportu, abyste vypočítali počet lidí, kteří mají rádi sporty, protože mezi nimi existuje překrývání, může jedna osoba mít rádi více sportů.
    • Kvůli zajištění stavu celého systému je velikost datové krychle omezená. V současné době je limit 100 000. Pokud vaše data tento limit překročí, pro toto časové razítko se příjem dat nezdaří.

Rozšířené nastavení

Existuje několik upřesňujících nastavení, která umožňují příjem dat přizpůsobeným způsobem, například určení posunu příjmu dat nebo souběžnosti. Další informace najdete v části Upřesňující nastavení v článku o správě datových kanálů.

Zadejte název datového kanálu a zkontrolujte průběh příjmu dat.

Zadejte vlastní název datového kanálu, který se zobrazí ve vašem pracovním prostoru. Pak vyberte Odeslat. Na stránce s podrobnostmi datového kanálu můžete k zobrazení informací o stavu použít indikátor průběhu příjmu dat.

Indikátor průběhu příjmu dat

Kontrola podrobností o selhání příjmu dat:

  1. Vyberte Zobrazit podrobnosti.
  2. Vyberte Stav a pak zvolte Chyba nebo Chyba.
  3. Najeďte myší na neúspěšný příjem dat a zobrazte zprávu s podrobnostmi, která se zobrazí.

Kontrola neúspěšného příjmu dat

Stav selhání označuje příjem dat pro tento zdroj dat později. Stav chyby značí, že Se službou Metrics Advisor se nebude u zdroje dat opakovat. Pokud chcete znovu načíst data, musíte ručně aktivovat obnovení nebo opětovné načtení.

Průběh příjmu dat můžete také znovu načíst kliknutím na Aktualizovat průběh. Po dokončení příjmu dat můžete kliknout na metriky a zkontrolovat výsledky detekce anomálií.

Další kroky