Podsumowywanie danych
W tym artykule opisano składnik projektanta usługi Azure Machine Learning.
Użyj składnika Summarize Data (Podsumowanie danych), aby utworzyć zestaw standardowych miar statystycznych opisujących każdą kolumnę w tabeli wejściowej.
Statystyki podsumowania są przydatne, gdy chcesz zrozumieć charakterystykę kompletnego zestawu danych. Na przykład może być konieczne poznanie następujących informacji:
- Ile brakujących wartości znajduje się w każdej kolumnie?
- Ile unikatowych wartości znajduje się w kolumnie funkcji?
- Jaka jest średnia i odchylenie standardowe dla każdej kolumny?
Składnik oblicza ważne wyniki dla każdej kolumny i zwraca wiersz statystyk podsumowania dla każdej zmiennej (kolumny danych) podanej jako dane wejściowe.
Jak skonfigurować podsumowanie danych
Dodaj składnik Summarize Data do potoku. Ten składnik można znaleźć w kategorii Funkcje statystyczne w projektancie.
Połącz zestaw danych, dla którego chcesz wygenerować raport.
Jeśli chcesz raportować tylko niektóre kolumny, użyj składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych ), aby utworzyć podzbiór kolumn do pracy.
Nie są wymagane żadne dodatkowe parametry. Domyślnie składnik analizuje wszystkie kolumny, które są dostarczane jako dane wejściowe, a w zależności od typu wartości w kolumnach generuje odpowiedni zestaw statystyk zgodnie z opisem w sekcji Wyniki .
Prześlij potok.
Wyniki
Raport ze składnika może zawierać następujące statystyki.
Nazwa kolumny | opis |
---|---|
Funkcja | Nazwa kolumny |
Licznik | Liczba wszystkich wierszy |
Liczba unikatowych wartości | Liczba unikatowych wartości w kolumnie |
Brak liczby wartości | Liczba unikatowych wartości w kolumnie |
Min | Najniższa wartość w kolumnie |
Maksimum | Najwyższa wartość w kolumnie |
Znaczyć | Średnia wszystkich wartości kolumn |
Odchylenie średnie | Średnie odchylenie wartości kolumn |
1 kwartyl | Wartość na początku kwartylu |
Mediana | Mediana wartości kolumny |
Trzeci kwartyl | Wartość na trzecim kwartylu |
Tryb | Tryb wartości kolumn |
Zakres | Liczba całkowita reprezentująca liczbę wartości między wartościami maksymalnymi i minimalnymi |
Przykładowa wariancja | Wariancja dla kolumny; zobacz Uwaga |
Przykładowe odchylenie standardowe | Odchylenie standardowe dla kolumny; zobacz Uwaga |
Przykładowa niesymetryczność | Niesymetryczność kolumny; zobacz Uwaga |
Próbka Kurtosis | Kurtoza dla kolumny; zobacz Uwaga |
P0.5 | 0,5% percentyl |
P1 | 1% percentyl |
P5 | 5% percentyl |
P95 | 95% percentyl |
P99.5 | 99,5% percentyl |
Uwagi techniczne
W przypadku kolumn nieliczbowych obliczane są tylko wartości count( Liczba), Unique value count (Liczba unikatowych wartości) i Missing value count (Liczba brakujących wartości). W przypadku innych statystyk zwracana jest wartość null.
Kolumny zawierające wartości logiczne są przetwarzane przy użyciu następujących reguł:
Podczas obliczania wartości Minimalna stosowana jest wartość logiczna AND.
Podczas obliczania maksymalnej wartości stosowana jest wartość logiczna OR
Podczas przetwarzania zakresu składnik najpierw sprawdza, czy liczba unikatowych wartości w kolumnie jest równa 2.
Podczas przetwarzania wszystkich statystyk wymagających obliczeń zmiennoprzecinkowych wartości True są traktowane jako 1.0, a wartości False są traktowane jako 0.0.
Następne kroki
Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.