Usuń zduplikowany składnik wierszy
W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.
Ten składnik służy do usuwania potencjalnych duplikatów z zestawu danych.
Załóżmy na przykład, że dane wyglądają jak poniżej i reprezentują wiele rekordów dla pacjentów.
Identyfikator pacjenta | Initials | Płeć | Wiek | Dopuszczone |
---|---|---|---|---|
1 | F.M. | M | 53 | Sty |
2 | F.A.M. | M | 53 | Sty |
3 | F.A.M. | M | 24 | Sty |
3 | F.M. | M | 24 | Lut |
100 | F.M. | M | 23 | Lut |
F.M. | M | 23 | ||
5 | F.A.M. | M | 53 | |
6 | F.A.M. | M | NaN | |
7 | F.A.M. | M | NaN |
Oczywiście w tym przykładzie istnieje wiele kolumn z potencjalnie zduplikowanymi danymi. To, czy są one rzeczywiście zduplikowane, zależy od twojej wiedzy na temat danych.
Na przykład można wiedzieć, że wielu pacjentów ma taką samą nazwę. Nie można wyeliminować duplikatów przy użyciu żadnych kolumn nazw, tylko kolumny ID . W ten sposób filtrowane są tylko wiersze z zduplikowanymi wartościami identyfikatorów, niezależnie od tego, czy pacjenci mają taką samą nazwę, czy nie.
Alternatywnie możesz zdecydować się na zezwolenie na duplikaty w polu IDENTYFIKATOR i użyć innej kombinacji plików, aby znaleźć unikatowe rekordy, takie jak imię, nazwisko, wiek i płeć.
Aby ustawić kryteria dotyczące tego, czy wiersz jest zduplikowany, czy nie, należy określić jedną kolumnę lub zestaw kolumn do użycia jako klucze. Dwa wiersze są traktowane jako duplikaty tylko wtedy, gdy wartości we wszystkich kolumnach klucza są równe. Jeśli w jakimkolwiek wierszu brakuje wartości kluczy, nie zostaną one uznane za zduplikowane wiersze. Jeśli na przykład płeć i wiek są ustawione jako Klucze w powyższej tabeli, wiersze 6 i 7 nie są zduplikowane, ponieważ brakuje im wartości w obszarze Wiek.
Po uruchomieniu składnika tworzy on zestaw danych kandydata i zwraca zestaw wierszy, które nie mają duplikatów w określonym zestawie kolumn.
Ważne
Źródłowy zestaw danych nie został zmieniony; Ten składnik tworzy nowy zestaw danych, który jest filtrowany w celu wykluczenia duplikatów na podstawie podanych kryteriów.
Jak używać usuwania zduplikowanych wierszy
Dodaj składnik do potoku. Składnik Usuń zduplikowane wiersze można znaleźć w obszarze Przekształcanie danych, Manipulowanie.
Połącz zestaw danych, który chcesz sprawdzić pod kątem zduplikowanych wierszy.
W okienku Właściwości w obszarze Wyrażenie filtru wyboru kolumny Klucza kliknij pozycję Uruchom selektor kolumn, aby wybrać kolumny do użycia w identyfikowaniu duplikatów.
W tym kontekście klucz nie oznacza unikatowego identyfikatora. Wszystkie kolumny wybrane przy użyciu selektora kolumn są oznaczone jako kolumny klucza. Wszystkie niezaznaczone kolumny są uznawane za kolumny inne niż kluczowe. Kombinacja kolumn wybranych jako klucze określa unikatowość rekordów. (Pomyśl o nim jako instrukcji SQL, która używa wielu sprzężeń równości).
Przykłady:
- "Chcę upewnić się, że identyfikatory są unikatowe": wybierz tylko kolumnę ID.
- "Chcę upewnić się, że kombinacja imienia, nazwiska i identyfikatora jest unikatowa": Wybierz wszystkie trzy kolumny.
Użyj pola wyboru Zachowaj pierwszy zduplikowany wiersz, aby wskazać wiersz, który ma być zwracany po znalezieniu duplikatów:
- W przypadku wybrania pierwszego wiersza zostanie zwrócony i inne odrzucone.
- Jeśli ta opcja zostanie anulowana, ostatni zduplikowany wiersz będzie przechowywany w wynikach, a inne zostaną odrzucone.
Prześlij potok.
Aby przejrzeć wyniki, kliknij prawym przyciskiem myszy składnik, a następnie wybierz polecenie Visualize (Wizualizacja).
Napiwek
Jeśli wyniki są trudne do zrozumienia lub jeśli chcesz wykluczyć niektóre kolumny z uwagi, możesz usunąć kolumny przy użyciu składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych ).
Następne kroki
Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.