Delen via


Dubbele rijen verwijderen

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Hiermee verwijdert u de dubbele rijen uit een gegevensset

Categorie: Gegevenstransformatie/manipulatie

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Dubbele rijen verwijderen in Machine Learning Studio (klassiek) gebruikt om mogelijke duplicaten uit een gegevensset te verwijderen.

Stel dat uw gegevens er als volgt uit zien en meerdere records voor patiënten vertegenwoordigen.

PatientID Initialen Geslacht Leeftijd Toegelaten
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53

Dit voorbeeld heeft duidelijk meerdere kolommen met mogelijk dubbele gegevens. Of het daadwerkelijk duplicaten zijn, is afhankelijk van uw kennis van de gegevens.

  • U weet bijvoorbeeld dat veel patiënten dezelfde naam hebben. U kunt dubbele waarden niet elimineren met behulp van naamkolommen, alleen de kolom ID . Op die manier worden alleen de rijen met dubbele id-waarden eruit gefilterd, ongeacht of de patiënten dezelfde naam hebben of niet.

  • U kunt ook besluiten om duplicaten toe te staan in het veld ID en een andere combinatie van opgeslagen bestanden te gebruiken om unieke records te vinden, zoals voornaam, achternaam, leeftijd en geslacht.

Als u de criteria wilt instellen voor het al dan niet dupliceren van een rij, geeft u één kolom of een set kolommen op die als sleutels moeten worden gebruikt. Twee rijen worden alleen beschouwd als dubbele waarden wanneer de waarden in alle sleutelkolommen gelijk zijn.

Wanneer u de module hebt uitgevoerd, wordt er een kandidaat-gegevensset gemaakt en wordt een set rijen zonder dubbele waarden in de set kolommen die u hebt opgegeven, retourneert.

Belangrijk

De bron-gegevensset wordt niet gewijzigd; In deze module wordt een nieuwe gegevensset gemaakt die wordt gefilterd om duplicaten uit te sluiten op basis van de criteria die u opgeeft.

Dubbele rijen verwijderen gebruiken

  1. Voeg de module toe aan uw experiment. U vindt de module Dubbele rijen verwijderen onder Gegevenstransformatie, Manipulatie.

  2. Verbinding maken de gegevensset die u wilt controleren op dubbele rijen.

  3. Klik in het deelvenster Eigenschappen onder Filterexpressie voor sleutelkolomselectie op Kolomselectie starten om kolommen te kiezen die moeten worden gebruikt bij het identificeren van duplicaten.

    In deze context betekent Sleutel geen unieke id. Alle kolommen die u selecteert met behulp van de kolom selector worden aangeduid als sleutelkolommen. Alle niet-geselecteerde kolommen worden beschouwd als niet-sleutelkolommen. De combinatie van kolommen die u als sleutels selecteert, bepaalt de uniekheid van de records. (U kunt dit zien als een SQL die gebruikmaakt van meerdere gelijkheids joins.)

    Voorbeelden:

    • 'Ik wil ervoor zorgen dat id's uniek zijn': Kies alleen de kolom ID.
    • "Ik wil ervoor zorgen dat de combinatie van voornaam, achternaam en id uniek is": Selecteer alle drie de kolommen.
  4. Gebruik het selectievakje Eerste dubbele rij behouden om aan te geven welke rij moet worden retourneert wanneer er dubbele waarden worden gevonden:

    • Als deze optie is geselecteerd, wordt de eerste rij geretourneerd en worden anderen verwijderd.
    • Als u deze optie uitcheckt, wordt de laatste dubbele rij in de resultaten bewaard en worden andere verwijderd.

    Zie de sectie Technische notities voor informatie over hoe missinng-waarden worden verwerkt.

  5. Voer het experiment uit of klik op de module en selecteer Geselecteerde uitvoeren.

  6. Als u de resultaten wilt bekijken, klikt u met de rechtermuisknop op de module, selecteert u Resultatenset en klikt u op Visualiseren.

Tip

Als de resultaten moeilijk te begrijpen zijn of als u bepaalde kolommen wilt uitsluiten van overweging, kunt u kolommen verwijderen met behulp van de module Kolommen in gegevensset selecteren.

Voorbeelden

Zie de volgende Azure AI Gallery voor voorbeelden van hoe deze module wordt Azure AI Gallery:

  • Detectie van borstkanker: Dubbele rijen verwijderen wordt gebruikt om de trainings- en testsets te consolideren na het toevoegen van functiekolommen.

  • Filmaanbeveling: maakt gebruik van Dubbele rijen verwijderen om ervoor te zorgen dat er slechts één gebruikersbeoordeling per film is.

  • Twitter-sentimentanalyse: Dubbele rijen verwijderen wordt alleen toegepast op de kolommen ID en populariteit, om ervoor te zorgen dat er slechts één rangschikkingswaarde per film is. Met andere woorden, een film kan niet zowel de 1e als de 3e zijn, dus er wordt één waarde gebruikt, zelfs als gebruikers de film anders rangschikken.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Implementatiegegevens

De module werkt door alle rijen van de invoerset door te lopen. Het verzamelt in een uitvoerset voor kandidaten alle rijen waar de unieke combinatie van sleutelkolomwaarden voor de eerste keer wordt weergegeven.

Het kolom matrixtype blijft onafhankelijk van de resultaten van rijfiltering behouden. U kunt de matrix niet tot een bepaald gegevenstype dwingen door ongeldige waarden te filteren; het kolom matrixtype is gebaseerd op alle waarden in de kolom. Deze beperking is ook van toepassing bij het filteren van ontbrekende waarden.

Het algoritme dat wordt gebruikt voor het vergelijken van gegevenswaarden wordt hash-geforceerd.

Ontbrekende waarden

De invoerset bevat mogelijk ontbrekende waarden in niet-sleutelkolommen en sleutelkolommen. Deze regels zijn van toepassing op ontbrekende waarden:

  • Een ontbrekende waarde wordt beschouwd als een geldige waarde in sleutelkolommen. Ontbrekende waarden kunnen aanwezig zijn in beide sleutels.

  • In een sparse gegevensset wordt de ontbrekende waarde alleen als gelijk beschouwd als deze gelijk is aan de standaardweergave van een sparse-waarde.

  • In sleutelkolommen wordt een ontbrekende waarde beschouwd als gelijk aan andere ontbrekende waarden, maar niet gelijk aan niet-ontbrekende waarden.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Invoerset

Moduleparameters

Name Bereik Type Standaard Beschrijving
Filterexpressie voor sleutelkolomselectie alle ColumnSelection Kies de sleutelkolommen die u wilt gebruiken bij het zoeken naar duplicaten.
Eerste dubbele rij behouden alle Booleaans true Geef aan of u de eerste rij van een set duplicaten wilt behouden en andere wilt verwijderen. Als de rij onwaar is, wordt de laatste dubbele rij die is aangetroffen, bewaard.

Uitvoer

Naam Type Description
Gegevensset met resultaten Gegevenstabel Gefilterde gegevensset

Uitzonderingen

Uitzondering Description
Fout 0003 Er treedt een uitzondering op als een of meer invoersets null of leeg zijn.
Fout 0020 Er treedt een uitzondering op als het aantal kolommen in sommige gegevenssets dat aan de module wordt doorgegeven te klein is.
Fout 0017 Er treedt een uitzondering op als een of meer opgegeven kolommen een type hebben dat niet wordt ondersteund door de huidige module.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Manipulatie
Lijst met A-Z-modules