Ta bort dubblettrader
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Tar bort dubblettraderna från en datauppsättning
Kategori: Datatransformering/manipulering
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
Den här artikeln beskriver hur du använder modulen Ta bort dubblettrader i Machine Learning Studio (klassisk) för att ta bort potentiella dubbletter från en datauppsättning.
Anta till exempel att dina data ser ut som följande och representerar flera poster för patienter.
PatientID | Initialer | Kön | Ålder | Erkände |
---|---|---|---|---|
1 | F.M. | M | 53 | Jan |
2 | F.A.M. | M | 53 | Jan |
3 | F.A.M. | M | 24 | Jan |
3 | F.M. | M | 24 | Feb |
4 | F.M. | M | 23 | Feb |
F.M. | M | 23 | ||
5 | F.A.M. | M | 53 |
Det är tydligt att det här exemplet har flera kolumner med potentiellt duplicerade data. Om de faktiskt är dubbletter beror på dina kunskaper om data.
Du kanske till exempel vet att många patienter har samma namn. Du skulle inte eliminera dubbletter med hjälp av namnkolumner, bara ID-kolumnen . På så sätt filtreras endast rader med dubblett-ID-värden ut, oavsett om patienterna har samma namn eller inte.
Du kan också välja att tillåta dubbletter i ID-fältet och använda en annan kombination av arkiv för att hitta unika poster, till exempel förnamn, efternamn, ålder och kön.
Om du vill ange kriterier för om en rad är dubblett eller inte anger du en enskild kolumn eller en uppsättning kolumner som ska användas som nycklar. Två rader betraktas endast som dubbletter när värdena i alla nyckelkolumner är lika.
När du kör modulen skapar den en kandidatdatauppsättning och returnerar en uppsättning rader som inte har några dubbletter i den angivna uppsättningen kolumner.
Viktigt
Källdatauppsättningen ändras inte. Den här modulen skapar en ny datauppsättning som filtreras för att utesluta dubbletter, baserat på de kriterier som du anger.
Så här använder du Ta bort dubblettrader
Lägg till modulen i experimentet. Du hittar modulen Ta bort dubblettrader under Datatransformering, Manipulering.
Anslut den datauppsättning som du vill söka efter dubblettrader.
I fönstret Egenskaper, under Filteruttryck för val av nyckelkolumn, klickar du på Starta kolumnväljaren för att välja kolumner som ska användas för att identifiera dubbletter.
I det här sammanhanget betyder nyckel inte en unik identifierare. Alla kolumner som du väljer med kolumnväljaren anges som nyckelkolumner. Alla ovalda kolumner betraktas som icke-nyckelkolumner. Kombinationen av kolumner som du väljer som nycklar avgör posterna unika. (Se det som en SQL-instruktion som använder flera likhetskopplingar.)
Exempel:
- "Jag vill se till att ID:n är unika": Välj endast KOLUMNEN ID.
- "Jag vill se till att kombinationen av förnamn, efternamn och ID är unik": Markera alla tre kolumnerna.
Använd kryssrutan Behåll den första dubblettraden för att ange vilken rad som ska returneras när dubbletter hittas:
- Om den är markerad returneras den första raden och andra ignoreras.
- Om du avmarkerar det här alternativet behålls den sista dubblettraden i resultatet och andra ignoreras.
I avsnittet Tekniska anteckningar finns information om hur felvärden hanteras.
Kör experimentet eller klicka på modulen och välj Kör valda.
Om du vill granska resultaten högerklickar du på modulen, väljer Datauppsättning för resultat och klickar på Visualisera.
Tips
Om resultaten är svåra att förstå, eller om du vill undanta vissa kolumner från överväganden, kan du ta bort kolumner med hjälp av modulen Välj kolumner i datauppsättning .
Exempel
Exempel på hur den här modulen används finns i Azure AI Gallery:
Canceridentifiering: Ta bort dubblettrader används för att konsolidera tränings- och testdatauppsättningarna när du har lagt till funktionskolumner.
Filmrekommendation: Använder Ta bort dubblettrader för att säkerställa att det bara finns ett användarklassificering per film.
Attitydanalys på Twitter: Ta bort dubblettrader tillämpas endast på kolumnerna ID och popularitet, för att säkerställa att det bara finns ett ordningstalsrutevärde per film. Med andra ord kan en film inte vara både första och tredje, så ett enda värde används även om användarna rangordnade filmen på olika sätt.
Teknisk information
Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.
Implementeringsdetaljer
Modulen fungerar genom att loopa igenom alla rader i indatauppsättningen. Den samlar in alla rader i en kandidatutdatauppsättning där den unika kombinationen av nyckelkolumnvärden visas för första gången.
Kolumnmatristypen bevaras oberoende av resultatet av radfiltreringen. Du kan inte tvinga matrisen till en viss datatyp genom att filtrera bort ogiltiga värden. kolumnmatristypen baseras på alla värden i kolumnen. Den här begränsningen gäller även när värden som saknas filtreras.
Algoritmen som används för att jämföra datavärden är hash-tvingad.
Saknade värden
Indatauppsättningen kan ha saknade värden i kolumner som inte är nyckelkolumner och nyckelkolumner. Dessa regler gäller för värden som saknas:
Ett värde som saknas betraktas som ett giltigt värde i nyckelkolumner. Saknade värden kan finnas i båda nycklarna.
I en gles datauppsättning anses det saknade värdet vara lika med bara om det är lika med standardrepresentationen av ett gles värde.
I nyckelkolumner anses ett saknat värde vara lika med andra saknade värden, men inte lika med värden som inte saknas.
Förväntade indata
Namn | Typ | Description |
---|---|---|
Datamängd | Datatabell | Indatauppsättning |
Modulparametrar
Name | Intervall | Typ | Standardvärde | Description |
---|---|---|---|---|
Filteruttryck för val av nyckelkolumn | valfri | ColumnSelection | Välj de nyckelkolumner som ska användas när du söker efter dubbletter. | |
Behåll den första dubblettraden | valfri | Boolesk | true | Ange om du vill behålla den första raden i en uppsättning dubbletter och ta bort andra. Om det är False behålls den senaste duplicerade raden. |
Utdata
Namn | Typ | Description |
---|---|---|
Resultatdatauppsättning | Datatabell | Filtrerad datauppsättning |
Undantag
Undantag | Description |
---|---|
Fel 0003 | Ett undantag inträffar om en eller flera av indatauppsättningarna är null eller tomma. |
Fel 0020 | Ett undantag inträffar om antalet kolumner i vissa datauppsättningar som skickas till modulen är för litet. |
Fel 0017 | Ett undantag inträffar om en eller flera angivna kolumner har en typ som inte stöds av den aktuella modulen. |
En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.
En lista över API-undantag finns i Machine Learning REST API felkoder.