Sumarizace dat
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Vytvoří základní sestavu s popisem statistiky pro sloupce v datové sadě.
Kategorie: statistické funkce
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
tento článek popisuje, jak používat modul shrnutí dat v aplikaci Machine Learning Studio (classic) k vytvoření sady standardních statistických měr, které popisují jednotlivé sloupce ve vstupní tabulce.
Tato souhrnná statistika je užitečná, když chcete pochopit vlastnosti kompletní datové sady. Můžete například potřebovat znát:
- Kolik chybějících hodnot je v každém sloupci?
- Kolik jedinečných hodnot ve sloupci funkce existuje?
- Jaká je střední a směrodatná odchylka pro každý sloupec?
Modul vypočítá důležité skóre pro jednotlivé sloupce a vrátí řádek souhrnných statistik pro každou proměnnou (datový sloupec), který je zadaný jako vstup.
Tip
Je možné, že už víte, že můžete získat krátký seznam statistik pomocí možnosti vizualizace v nástroji Studio (Classic). Tato vizualizace je ale vytvořená na základě určitého počtu prvních řádků. Naproti tomu modul Shrnutí dat počítá své statistiky pro všechny řádky dat.
Jak používat souhrnná data
Přidejte modul Shrnutí dat do experimentu. Tento modul můžete najít v kategorii statistické funkce v nástroji Studio (Classic).
Připojení datovou sadu, pro kterou chcete vygenerovat sestavu.
Pokud chcete vytvořit sestavu pouze pro některé sloupce, použijte modul Výběr sloupců v datové sadě k vytvoření podmnožiny sloupců, se kterými chcete pracovat.
Nejsou vyžadovány žádné další parametry. Ve výchozím nastavení modul analyzuje všechny sloupce, které jsou zadány jako vstup, a v závislosti na typu hodnot ve sloupcích vypíše relevantní sadu statistik, jak je popsáno v části výsledky .
Spusťte experiment nebo klikněte pravým tlačítkem na modul a vyberte Spustit vybrané.
Výsledky
Sestava z modulu může zahrnovat následující statistiky.
Přesná statistika, která se generuje, závisí na datovém typu sloupce. Podrobnosti najdete v části technické poznámky .
Předpokladem je, že instance patří do reprezentativního vzorku populace. Pokud potřebujete na populaci vypočítat statistiku, použijte možnosti v modulu COMPUTE COMPUTE COMPUTE , který může vypočítat buď statistiku ukázek, nebo jejich populace.
Název sloupce | Popis |
---|---|
Funkce | Název sloupce |
Počet | Počet všech řádků |
Počet jedinečných hodnot | Počet jedinečných hodnot ve sloupci |
Chybějící počet hodnot | Počet jedinečných hodnot ve sloupci |
Dlouhé | Nejnižší hodnota ve sloupci |
Počet | Nejvyšší hodnota ve sloupci |
Průměrná | Střední hodnota všech hodnot sloupců |
Střední odchylka | Střední odchylka hodnot sloupců |
1. kvartil | Hodnota při první kvartil |
Svisl | Hodnota sloupce mediánu |
třetí kvartil | Hodnota při třetí kvartil |
Režim | Režim hodnot sloupců |
Rozsah | Celé číslo představující počet hodnot mezi maximální a minimální hodnotou |
Odchylka vzorku | Variance pro sloupec; Viz Poznámka |
Vzorová směrodatná odchylka | Směrodatná odchylka pro sloupec; Viz Poznámka |
Dezkosení vzorku | Zešikmení sloupce; Viz Poznámka |
Ukázka špičatosti | Špičatost pro sloupec; Viz Poznámka |
P 0,5 | 0,5% percentil |
P1 | 1% percentil |
P5 | 5% percentil |
P95 | 95% percentil |
P 99,5 | 99,5% percentil |
Tip
Výstup sestavy statistiky jako Tabulková datová sada, aby bylo možné použít data v nástrojích pro vytváření sestav BI, nebo použít hodnoty jako vstup k jiné operaci v experimentu.
Příklady
Příklady použití modulu sumarizace data v experimentu najdete v Azure AI Gallery:
stáhnout datovou sadu z webu UCI: přečte datovou sadu ve formátu CSV pomocí její adresy URL v úložišti UCI Machine Learning a vygeneruje několik základních statistik o této datové sadě.
Zpracování a analýza datových sad: načte datovou sadu do pracovního prostoru, změní názvy sloupců a přidá metadata.
Předpověď výkonnosti studenta: čte data uložená ve formátu TSV z úložiště objektů BLOB v Azure.
Technické poznámky
U číselných a logických sloupců můžete vyhodnotit průměrnou odchylku, medián, režim a směrodatnou odchylku.
Pro nečíselné sloupce jsou vypočítány pouze hodnoty pro počet, jedinečný počethodnot a chybějící počet hodnot . Pro jiné statistiky se vrátí hodnota null.
Sloupce, které obsahují logické hodnoty, jsou zpracovávány pomocí těchto pravidel:
Při výpočtu hodnoty Min se použije logický operátor AND.
Při výpočtu hodnoty Max se použije logický operátor OR.
Při výpočtu rozsahu modul nejprve zkontroluje, jestli se počet jedinečných hodnot ve sloupci rovná 2.
Při výpočtu jakékoli statistiky, která vyžaduje výpočty s plovoucí desetinnou čárkou, se hodnoty True budou považovat za 1,0 a hodnoty False se budou považovat za 0,0.
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada | Tabulka dat | Vstupní datová sada |
Výstup
Název | Typ | Description |
---|---|---|
Datová sada výsledků | Tabulka dat | Profil vstupní datové sady, který obsahuje popisné statistiky |
Výjimky
Výjimka | Description |
---|---|
Chyba 0003 | K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný. |
Chyba 0020 | K výjimce dochází v případě, že je počet sloupců v některých datových sadách předaný modulu příliš malý. |
Chyba 0021 | K výjimce dochází v případě, že je počet řádků v některých datových sadách předaný modulu příliš malý. |
Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.
Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.