Udostępnij za pośrednictwem


Czyszczenie brakującego składnika danych

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Ten składnik służy do usuwania, zastępowania lub wnioskowania brakujących wartości.

Analitycy danych często sprawdzają brakujące wartości, a następnie wykonują różne operacje, aby naprawić dane lub wstawić nowe wartości. Celem takich operacji czyszczenia jest zapobieganie problemom spowodowanym brakującymi danymi, które mogą wystąpić podczas trenowania modelu.

Ten składnik obsługuje wiele typów operacji na potrzeby "czyszczenia" brakujących wartości, w tym:

  • Zastępowanie brakujących wartości symbolem zastępczym, średnią lub inną wartością
  • Całkowite usuwanie wierszy i kolumn, które mają brakujące wartości
  • Wnioskowanie wartości na podstawie metod statystycznych

Użycie tego składnika nie powoduje zmiany źródłowego zestawu danych. Zamiast tego tworzy nowy zestaw danych w obszarze roboczym, którego można użyć w kolejnym przepływie pracy. Możesz również zapisać nowy, oczyszczony zestaw danych do ponownego użycia.

Ten składnik generuje również definicję przekształcenia używanego do czyszczenia brakujących wartości. Możesz ponownie użyć tej transformacji w innych zestawach danych, które mają ten sam schemat, przy użyciu składnika Zastosuj transformację.

Jak używać czyszczenia brakujących danych

Ten składnik umożliwia zdefiniowanie operacji czyszczenia. Możesz również zapisać operację czyszczenia, aby później zastosować ją do nowych danych. Zapoznaj się z następującymi sekcjami tworzenia i zapisywania procesu czyszczenia:

Ważne

Metoda czyszczenia używana do obsługi brakujących wartości może znacząco wpłynąć na wyniki. Zalecamy eksperymentowanie z różnymi metodami. Należy wziąć pod uwagę zarówno uzasadnienie użycia określonej metody, jak i jakość wyników.

Zastępowanie brakujących wartości

Za każdym razem, gdy zastosujesz składnik Clean Missing Data do zestawu danych, ta sama operacja czyszczenia jest stosowana do wszystkich wybranych kolumn. W związku z tym, jeśli musisz wyczyścić różne kolumny przy użyciu różnych metod, użyj oddzielnych wystąpień składnika.

  1. Dodaj składnik Clean Missing Data (Czyszczenie brakujących danych) do potoku i połącz zestaw danych z brakującymi wartościami.

  2. Aby wyczyścić kolumny, wybierz kolumny zawierające brakujące wartości, które chcesz zmienić. Możesz wybrać wiele kolumn, ale musisz użyć tej samej metody zastępczej we wszystkich zaznaczonych kolumnach. W związku z tym zazwyczaj należy oddzielnie wyczyścić kolumny ciągów i kolumny liczbowe.

    Aby na przykład sprawdzić brakujące wartości we wszystkich kolumnach liczbowych:

    1. Wybierz składnik Clean Missing Data ( Czyszczenie brakujących danych ), a następnie kliknij pozycję Edytuj kolumnę w prawym panelu składnika.

    2. W polu Uwzględnij wybierz pozycję Typy kolumn z listy rozwijanej, a następnie wybierz pozycję Numeryczne.

    Każda wybrana metoda czyszczenia lub zastępowania musi mieć zastosowanie do wszystkich kolumn w zaznaczeniu. Jeśli dane w dowolnej kolumnie są niezgodne z określoną operacją, składnik zwraca błąd i zatrzymuje potok.

  3. W polu Minimalny brakujący współczynnik wartości określ minimalną liczbę brakujących wartości wymaganych do wykonania operacji.

    Ta opcja jest używana w połączeniu z maksymalnym brakiem współczynnika wartości, aby zdefiniować warunki, w których operacja czyszczenia jest wykonywana na zestawie danych. Jeśli brakuje zbyt wielu lub zbyt kilku wierszy, nie można wykonać operacji.

    Wprowadzona liczba reprezentuje stosunek brakujących wartości do wszystkich wartości w kolumnie. Domyślnie właściwość Minimalny brak współczynnika wartości jest ustawiona na 0. Oznacza to, że brakujące wartości są czyszczone, nawet jeśli brakuje tylko jednej brakującej wartości.

    Ostrzeżenie

    Ten warunek musi być spełniony przez każdą i każdą kolumnę, aby można było zastosować określoną operację. Załóżmy na przykład, że wybrano trzy kolumny, a następnie ustaw minimalny współczynnik brakujących wartości na wartość .2 (20%), ale tylko jedna kolumna rzeczywiście ma 20% brakujących wartości. W takim przypadku operacja oczyszczania będzie stosowana tylko do kolumny z ponad 20% brakującymi wartościami. W związku z tym pozostałe kolumny byłyby niezmienione.

    Jeśli masz wątpliwości co do tego, czy brakujące wartości zostały zmienione, wybierz opcję Wygeneruj kolumnę wskaźnika brakującej wartości. Kolumna jest dołączana do zestawu danych, aby wskazać, czy każda kolumna spełnia określone kryteria dla minimalnych i maksymalnych zakresów.

  4. W polu Maksymalny współczynnik brakujących wartości określ maksymalną liczbę brakujących wartości, które mogą być obecne dla operacji do wykonania.

    Możesz na przykład wykonać podstawienie brakującej wartości tylko wtedy, gdy 30% lub mniej wierszy zawiera brakujące wartości, ale pozostaw wartości tak, jak jest, jeśli brakuje więcej niż 30% wierszy.

    Liczbę należy zdefiniować jako stosunek brakujących wartości do wszystkich wartości w kolumnie. Domyślnie maksymalny brakujący współczynnik wartości jest ustawiony na 1. Oznacza to, że brakujące wartości są czyszczone, nawet jeśli brakuje 100% wartości w kolumnie.

  5. W obszarze Tryb czyszczenia wybierz jedną z następujących opcji zastępowania lub usuwania brakujących wartości:

    • Niestandardowa wartość podstawienia: użyj tej opcji, aby określić wartość symbolu zastępczego (na przykład 0 lub NA), która ma zastosowanie do wszystkich brakujących wartości. Wartość określona jako zamiana musi być zgodna z typem danych kolumny.

    • Zamień na średnią: oblicza średnią kolumny i używa średniej jako wartości zastępczej dla każdej brakującej wartości w kolumnie.

      Dotyczy tylko kolumn, które mają typy danych liczb całkowitych, podwójnych lub logicznych.

    • Zastąp wartość medianą: oblicza medianę kolumny i używa wartości mediany jako zamiany dla dowolnej brakującej wartości w kolumnie.

      Dotyczy tylko kolumn, które mają typy danych całkowitych lub podwójnych.

    • Zamień na tryb: oblicza tryb dla kolumny i używa trybu jako wartości zastępczej dla każdej brakującej wartości w kolumnie.

      Dotyczy kolumn, które mają typy danych typu Liczba całkowita, Podwójna, Logiczna lub Kategoria.

    • Usuń cały wiersz: całkowicie usuwa dowolny wiersz w zestawie danych zawierającym co najmniej jedną brakującą wartość. Jest to przydatne, jeśli brakująca wartość może być uważana za brakującą losowo.

    • Usuń całą kolumnę: całkowicie usuwa dowolną kolumnę w zestawie danych z co najmniej jedną brakującą wartością.

  6. Opcja Wartość zastępcza jest dostępna, jeśli została wybrana opcja Niestandardowa wartość podstawienia. Wpisz nową wartość, która ma być używana jako wartość zastępcza dla wszystkich brakujących wartości w kolumnie.

    Należy pamiętać, że tej opcji można używać tylko w kolumnach, które mają liczbę całkowitą, podwójną, wartość logiczną lub ciąg.

  7. Wygeneruj kolumnę wskaźnika brakującej wartości: wybierz tę opcję, jeśli chcesz wyświetlić pewne wskazanie, czy wartości w kolumnie spełniają kryteria czyszczenia brakującej wartości. Ta opcja jest szczególnie przydatna podczas konfigurowania nowej operacji czyszczenia i upewnienia się, że działa zgodnie z projektem.

  8. Prześlij potok.

Wyniki

Składnik zwraca dwa dane wyjściowe:

  • Oczyszczony zestaw danych: zestaw danych składający się z wybranych kolumn, z brakującymi wartościami obsługiwanymi zgodnie z określoną wartością wraz z kolumną wskaźnika, jeśli wybrano tę opcję.

    Kolumny, które nie są zaznaczone do czyszczenia, są również "przekazywane".

  • Przekształcanie czyszczenia: przekształcenie danych używane do czyszczenia, które można zapisać w obszarze roboczym i zastosować do nowych danych później.

Stosowanie zapisanej operacji czyszczenia do nowych danych

Jeśli często trzeba powtarzać operacje czyszczenia, zalecamy zapisanie przepisu na potrzeby czyszczenia danych jako przekształcenia w celu ponownego użycia tego samego zestawu danych. Zapisywanie przekształcenia czyszczenia jest szczególnie przydatne, jeśli musisz często ponownie importować, a następnie czyścić dane, które mają ten sam schemat.

  1. Dodaj składnik Zastosuj transformację do potoku.

  2. Dodaj zestaw danych, który chcesz wyczyścić, i połącz zestaw danych z portem wejściowym po prawej stronie.

  3. Rozwiń grupę Przekształcenia w okienku po lewej stronie projektanta. Znajdź zapisaną transformację i przeciągnij ją do potoku.

  4. Połącz zapisaną transformację z lewym portem wejściowym zastosuj przekształcenie.

    Po zastosowaniu zapisanego przekształcenia nie można wybrać kolumn, do których zastosowano przekształcenie. Wynika to z faktu, że transformacja została już zdefiniowana i jest stosowana automatycznie do kolumn określonych w oryginalnej operacji.

    Załóżmy jednak, że utworzono przekształcenie w podzestawie kolumn liczbowych. Tę transformację można zastosować do zestawu danych mieszanych typów kolumn bez zgłaszania błędu, ponieważ brakujące wartości są zmieniane tylko w pasujących kolumnach liczbowych.

  5. Prześlij potok.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.