Udostępnij za pośrednictwem


Podsumowywanie danych

W tym artykule opisano składnik projektanta usługi Azure Machine Learning.

Użyj składnika Summarize Data (Podsumowanie danych), aby utworzyć zestaw standardowych miar statystycznych opisujących każdą kolumnę w tabeli wejściowej.

Statystyki podsumowania są przydatne, gdy chcesz zrozumieć charakterystykę kompletnego zestawu danych. Na przykład może być konieczne poznanie następujących informacji:

  • Ile brakujących wartości znajduje się w każdej kolumnie?
  • Ile unikatowych wartości znajduje się w kolumnie funkcji?
  • Jaka jest średnia i odchylenie standardowe dla każdej kolumny?

Składnik oblicza ważne wyniki dla każdej kolumny i zwraca wiersz statystyk podsumowania dla każdej zmiennej (kolumny danych) podanej jako dane wejściowe.

Jak skonfigurować podsumowanie danych

  1. Dodaj składnik Summarize Data do potoku. Ten składnik można znaleźć w kategorii Funkcje statystyczne w projektancie.

  2. Połącz zestaw danych, dla którego chcesz wygenerować raport.

    Jeśli chcesz raportować tylko niektóre kolumny, użyj składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych ), aby utworzyć podzbiór kolumn do pracy.

  3. Nie są wymagane żadne dodatkowe parametry. Domyślnie składnik analizuje wszystkie kolumny, które są dostarczane jako dane wejściowe, a w zależności od typu wartości w kolumnach generuje odpowiedni zestaw statystyk zgodnie z opisem w sekcji Wyniki .

  4. Prześlij potok.

Wyniki

Raport ze składnika może zawierać następujące statystyki.

Nazwa kolumny opis
Funkcja Nazwa kolumny
Licznik Liczba wszystkich wierszy
Liczba unikatowych wartości Liczba unikatowych wartości w kolumnie
Brak liczby wartości Liczba unikatowych wartości w kolumnie
Min Najniższa wartość w kolumnie
Maksimum Najwyższa wartość w kolumnie
Znaczyć Średnia wszystkich wartości kolumn
Odchylenie średnie Średnie odchylenie wartości kolumn
1 kwartyl Wartość na początku kwartylu
Mediana Mediana wartości kolumny
Trzeci kwartyl Wartość na trzecim kwartylu
Tryb Tryb wartości kolumn
Zakres Liczba całkowita reprezentująca liczbę wartości między wartościami maksymalnymi i minimalnymi
Przykładowa wariancja Wariancja dla kolumny; zobacz Uwaga
Przykładowe odchylenie standardowe Odchylenie standardowe dla kolumny; zobacz Uwaga
Przykładowa niesymetryczność Niesymetryczność kolumny; zobacz Uwaga
Próbka Kurtosis Kurtoza dla kolumny; zobacz Uwaga
P0.5 0,5% percentyl
P1 1% percentyl
P5 5% percentyl
P95 95% percentyl
P99.5 99,5% percentyl

Uwagi techniczne

  • W przypadku kolumn nieliczbowych obliczane są tylko wartości count( Liczba), Unique value count (Liczba unikatowych wartości) i Missing value count (Liczba brakujących wartości). W przypadku innych statystyk zwracana jest wartość null.

  • Kolumny zawierające wartości logiczne są przetwarzane przy użyciu następujących reguł:

    • Podczas obliczania wartości Minimalna stosowana jest wartość logiczna AND.

    • Podczas obliczania maksymalnej wartości stosowana jest wartość logiczna OR

    • Podczas przetwarzania zakresu składnik najpierw sprawdza, czy liczba unikatowych wartości w kolumnie jest równa 2.

    • Podczas przetwarzania wszystkich statystyk wymagających obliczeń zmiennoprzecinkowych wartości True są traktowane jako 1.0, a wartości False są traktowane jako 0.0.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.