Udostępnij za pośrednictwem


Obcinanie wartości

W tym artykule opisano składnik projektanta usługi Azure Machine Learning.

Użyj składnika Wartości wycinków, aby zidentyfikować i opcjonalnie zastąpić wartości danych, które są powyżej lub poniżej określonego progu ze średnią, stałą lub inną wartością zastępczą.

Składnik łączy się z zestawem danych zawierającym liczby, z którymi chcesz utworzyć klip, wybiera kolumny do pracy, a następnie ustawia próg lub zakres wartości oraz metodę zastępczą. Składnik może wyświetlić tylko wyniki lub zmienione wartości dołączone do oryginalnego zestawu danych.

Jak skonfigurować wartości wycinków

Przed rozpoczęciem zidentyfikuj kolumny, których chcesz przycinać, oraz metodę do użycia. Zalecamy przetestowanie dowolnej metody wycinków na małym podzestawie danych.

Składnik stosuje te same kryteria i metodę zastępczą do wszystkich kolumn uwzględninych w zaznaczeniu. W związku z tym należy wykluczyć kolumny, których nie chcesz zmieniać.

Jeśli musisz zastosować metody wycinków lub inne kryteria do niektórych kolumn, musisz użyć nowego wystąpienia wartości clip dla każdego zestawu podobnych kolumn.

  1. Dodaj składnik Clip Values do potoku i połącz go z zestawem danych, który chcesz zmodyfikować. Ten składnik można znaleźć w obszarze Przekształcanie danych w kategorii Skalowanie i zmniejszanie .

  2. Na liście kolumn użyj selektora kolumn, aby wybrać kolumny, do których zostaną zastosowane wartości wycinków.

  3. W obszarze Zestaw progów wybierz jedną z następujących opcji z listy rozwijanej. Te opcje określają, jak ustawić górne i dolne granice akceptowalnych wartości w porównaniu z wartościami, które muszą zostać obcięte.

    • ClipPeaks: Gdy przycinasz wartości według wartości szczytowych, określasz tylko górną granicę. Wartości większe niż ta wartość granicy są zastępowane.

    • ClipSubpeaks: podczas tworzenia wycinków wartości według podpeaks określisz tylko dolną granicę. Wartości, które są mniejsze niż ta wartość granicy, są zastępowane.

    • ClipPeaksAndSubpeaks: Gdy przycinasz wartości według wartości szczytowych i podpeaks, możesz określić zarówno górne, jak i dolne granice. Wartości spoza tego zakresu są zastępowane. Wartości zgodne z wartościami granic nie są zmieniane.

  4. W zależności od wyboru w poprzednim kroku można ustawić następujące wartości progowe:

    • Niższy próg: wyświetlany tylko wtedy, gdy wybierzesz pozycję ClipSubPeaks
    • Górny próg: wyświetlany tylko wtedy, gdy wybierzesz pozycję ClipPeaks
    • Próg: wyświetlany tylko wtedy, gdy wybierzesz pozycję ClipPeaksAndSubPeaks

    Dla każdego typu progu wybierz pozycję Stała lub Percentyl.

  5. W przypadku wybrania pozycji Stała wpisz maksymalną lub minimalną wartość w polu tekstowym. Załóżmy na przykład, że wiesz, że wartość 999 została użyta jako wartość symbolu zastępczego. Możesz wybrać wartość Stała dla górnego progu i wpisać wartość 999 w polu Stała dla górnego progu.

  6. Jeśli wybierzesz pozycję Percentyl, ograniczysz wartości kolumn do zakresu percentylu.

    Załóżmy na przykład, że chcesz zachować tylko wartości w zakresie 10–80 percentylu i zastąpić wszystkie inne. Wybierz opcję Percentyl, a następnie wpisz 10 dla wartości percentylu dla niższego progu, a następnie wpisz 80 dla wartości percentylu dla górnej wartości progowej.

    Zobacz sekcję dotyczącą percentyli , aby zapoznać się z przykładami używania zakresów percentylu.

  7. Zdefiniuj wartość zastępczą.

    Liczby, które dokładnie odpowiadają określonym granicom, są uważane za wewnątrz dozwolonego zakresu wartości, a tym samym nie są zastępowane. Wszystkie liczby, które znajdują się poza określonym zakresem, są zastępowane wartością zastępczą.

    • Wartość zastępcza dla wartości szczytowych: definiuje wartość, która zastępuje wszystkie wartości kolumn, które są większe niż określony próg.
    • Wartość zastępcza podpeaks: definiuje wartość, która ma być używana jako zamiennik dla wszystkich wartości kolumn, które są mniejsze niż określony próg.
    • Jeśli używasz opcji ClipPeaksAndSubpeaks , możesz określić oddzielne wartości zastępcze dla górnych i dolnych przyciętych wartości.

    Obsługiwane są następujące wartości zastępcze:

    • Próg: zamienia przycięte wartości na określoną wartość progową.

    • Średnia: zamienia przycięte wartości na średnią wartości kolumny. Średnia jest obliczana przed przycięciem wartości.

    • Mediana: zastępuje przycięte wartości medianą wartości kolumny. Mediana jest obliczana przed przycięciem wartości.

    • Brak. Zamienia przycięte wartości na brakującą (pustą).

  8. Dodaj kolumny wskaźnika: wybierz tę opcję, jeśli chcesz wygenerować nową kolumnę, która informuje o tym, czy określona operacja wycinkowania została zastosowana do danych w tym wierszu. Ta opcja jest przydatna podczas testowania nowego zestawu wartości przycinania i podstawiania.

  9. Zastąp flagę: wskaż sposób generowania nowych wartości. Domyślnie wartości clip tworzy nową kolumnę z wartościami szczytowymi przyciętymi do żądanego progu. Nowe wartości zastępują oryginalną kolumnę.

    Aby zachować oryginalną kolumnę i dodać nową kolumnę ze przyciętymi wartościami, usuń zaznaczenie tej opcji.

  10. Prześlij potok.

    Kliknij prawym przyciskiem myszy składnik Clip Values i wybierz pozycję Visualize (Wizualizuj) lub wybierz składnik i przejdź do karty Dane wyjściowe w prawym panelu, kliknij ikonę histogramu w danych wyjściowych portów, aby przejrzeć wartości i upewnić się, że operacja wycinkowania spełnia Twoje oczekiwania.

Przykłady wycinania przy użyciu percentyli

Aby zrozumieć, jak działa wycinkowanie według percentyli, rozważ zestaw danych z 10 wierszami, które mają jedno wystąpienie każdego z wartości 1–10.

  • Jeśli używasz percentylu jako górnego progu, wartość 90. percentyla wynosi 90 procent wszystkich wartości w zestawie danych musi być mniejsza niż ta wartość.

  • Jeśli używasz percentylu jako niższego progu, wartość 10. percentyla musi być mniejsza niż ta wartość.

  1. W obszarze Zestaw progów wybierz pozycję ClipPeaksAndSubPeaks.

  2. W obszarze Górny próg wybierz pozycję Percentyl, a w polu Liczba percentylu wpisz wartość 90.

  3. W polu Górna wartość zastępcza wybierz pozycję Brak wartości.

  4. W obszarze Niższy próg wybierz pozycję Percentyl, a w polu Liczba percentylu wpisz 10.

  5. W polu Niższa wartość zastępcza wybierz pozycję Brak wartości.

  6. Usuń zaznaczenie opcji Zastąp flagę i wybierz opcję Dodaj kolumnę wskaźnika.

Teraz spróbuj użyć tego samego potoku przy użyciu wartości 60 co górny próg percentylu i 30 jako niższy próg percentylu i użyj wartości progowej jako wartości zastępczej. Poniższa tabela porównuje te dwa wyniki:

  1. Zastąp element brakiem; Górny próg = 90; Niższy próg = 20

  2. Zastąp element progiem; Górny percentyl = 60; Niższy percentyl = 40

Oryginalne dane Zastąp element brakiem Zastąp element progiem
1

2

3

4

5

6

7

8

9

10
PRAWDA

PRAWDA

3, FAŁSZ

4, FAŁSZ

5, FAŁSZ

6, FAŁSZ

7, FAŁSZ

8, FAŁSZ

9, FAŁSZ

PRAWDA
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FAŁSZ

6, FAŁSZ

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.