Beskärningsvärden
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Identifierar avvikande värden och klipp eller ersätter deras värden
Kategori: Datatransformering/skala och minska
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
Den här artikeln beskriver hur du använder modulen Clip Values i Machine Learning Studio (klassisk) för att identifiera och eventuellt ersätta datavärden som är över eller under ett angivet tröskelvärde. Detta är användbart när du vill ta bort avvikande värden eller ersätta dem med ett medelvärde, en konstant eller ett annat ersättningsvärde.
Du ansluter modulen till en datauppsättning som har de tal som du vill klippa, väljer de kolumner som ska användas med och anger sedan ett tröskelvärde eller intervall med värden och en ersättningsmetod. Modulen kan mata ut antingen bara resultaten eller de ändrade värdena som läggs till i den ursprungliga datauppsättningen.
Så här konfigurerar du clip-värden
Innan du börjar ska du identifiera de kolumner som du vill klippa och vilken metod som ska användas. Vi rekommenderar att du testar alla cklippningsmetod på en liten delmängd data först.
Modulen använder samma kriterier och ersättningsmetod för alla kolumner som du inkluderar i valet. Se därför till att undanta kolumner som du inte vill ändra.
Om du behöver använda cklippningsmetoder eller olika kriterier för vissa kolumner måste du använda en ny instans av Clip Values för varje uppsättning liknande kolumner.
Lägg till modulen Clip Values (Clip Values) i experimentet och anslut den till den datauppsättning som du vill ändra. Du hittar den här modulen under Datatransformering i kategorin Skala och Minska .
I Lista över kolumner använder du kolumnväljaren för att välja de kolumner som Clip-värden ska tillämpas på.
För Uppsättning tröskelvärden väljer du något av följande alternativ i listrutan. De här alternativen avgör hur du ställer in de övre och nedre gränserna för godkända värden jämfört med värden som måste vara urklippta.
ClipPeaks: När du klipper ut värden efter toppar anger du bara en övre gräns. Värden som är större än gränsvärdet ersätts eller tas bort.
ClipSubpeaks: När du klipper ut värden efter undertoppar anger du bara en lägre gräns. Värden som är mindre än gränsvärdet ersätts eller tas bort.
ClipPeaksAndSubpeaks: När du klipper ut värden efter toppar och undertoppar kan du ange både de övre och nedre gränserna. Värden som är utanför det intervallet ersätts eller tas bort. Värden som matchar gränsvärdena ändras inte.
Beroende på ditt val i föregående steg kan du ange följande tröskelvärden:
- Lägre tröskelvärde: Visas bara om du väljer ClipSubPeaks
- Övre tröskelvärde: Visas bara om du väljer ClipPeaks
- Tröskelvärde: Visas bara om du väljer ClipPeaksAndSubPeaks
För varje tröskelvärdestyp väljer du antingen Konstant eller Percentil.
Om du väljer Konstant anger du det högsta eller lägsta värdet i textrutan. Anta till exempel att du vet att värdet 999 användes som platshållarvärde. Du kan välja Konstant för det övre tröskelvärdet och skriva 999 i Konstantvärde för det övre tröskelvärdet.
Om du väljer Percentil begränsar du kolumnvärdena till ett percentilintervall.
Anta till exempel att du bara vill behålla värdena i intervallet 10–80 percentil och ersätta alla andra. Du väljer Percentil och skriver sedan 10 som Percentilvärde för lägre tröskelvärde och skriver 80 som Percentilvärde för det övre tröskelvärdet.
I avsnittet om percentiler finns några exempel på hur du använder percentilintervall.
Definiera ett ersättningsvärde.
Tal som exakt matchar de gränser som du nyss angav anses vara inom det tillåtna värdeintervallet och ersätts eller tas därför inte bort. Alla tal som faller utanför det angivna intervallet ersätts med det ersatta värdet.
- Ersättningsvärde för toppar: Definierar värdet som ska ersättas med alla kolumnvärden som är större än det angivna tröskelvärdet.
- Ersättningsvärde för subpeaks: Definierar det värde som ska användas som en ersättning för alla kolumnvärden som är mindre än det angivna tröskelvärdet.
- Om du använder alternativet ClipPeaksAndSubpeaks kan du ange separata ersättningsvärden för de övre och nedre urklippta värdena.
Följande ersättningsvärden stöds:
Tröskelvärde: Ersätter urklippta värden med det angivna tröskelvärdet.
Medelvärde: Ersätter urklippta värden med medelvärdet för kolumnvärdena. Medelvärdet beräknas innan värdena klipps.
Medianvärde: Ersätter urklippta värden med medianvärdet för kolumnvärdena. Medianvärdet beräknas innan värdena klipps.
Saknas. Ersätter urklippta värden med det saknade (tomma) värdet.
Lägg till indikatorkolumner: Välj det här alternativet om du vill generera en ny kolumn som anger om den angivna cklippåtgärden som tillämpas på data på den raden eller inte. Det här alternativet är särskilt användbart när du testar en ny uppsättning cklippnings- och ersättningsvärden.
Overwrite flag (Överskrivningsflagga): Ange hur du vill att de nya värdena ska genereras. Som standard skapar Clip Values en ny kolumn med de högsta värdena klippt till önskat tröskelvärde. Nya värden skriver över den ursprungliga kolumnen.
Om du vill behålla den ursprungliga kolumnen och lägga till en ny kolumn med de urklippta värdena avmarkerar du det här alternativet.
Kör experimentet.
Högerklicka på utdata för modulen Clip Values (Clip Values) och välj Visualize (Visualisera) för att granska värdena och se till att urklippsåtgärden uppfyllde dina förväntningar.
Exempel
Information om hur den här modulen används i maskininlärningsexperiment finns i Azure AI Gallery:
- Extremvärden för skogsbrand: Det här exemplet från EdX-couse i data science demonstrerar c samplingsmetoder med hjälp av exempeldatauppsättningen Forest Fires.
Cklippning med percentiler
För att förstå hur urklippning av percentiler fungerar kan du överväga en datauppsättning med 10 rader, som har en instans var och en av värdena 1–10.
Om du använder percentilen som det övre tröskelvärdet, vid värdet för den 90:e percentilen, måste 90 procent av alla värden i datauppsättningen vara mindre än det värdet.
Om du använder percentilen som det lägre tröskelvärdet vid värdet för den 10:e percentilen måste 10 procent av alla värden i datauppsättningen vara mindre än det värdet.
För Uppsättning tröskelvärden väljer du ClipPeaksAndSubPeaks.
För Övre tröskelvärde väljer du Percentil och för Percentilnummer skriver du 90.
För Övre ersättningsvärde väljer du Värde saknas.
För Lägre tröskelvärde väljer du Percentil och för Percentilnummer skriver du 10.
För Lägre ersättningsvärde väljer du Värde saknas.
Avmarkera alternativet Överskrivningsflagga och välj alternativet Lägg till indikatorkolumn.
Prova nu samma experiment med 60 som övre percentiltröskel och 30 som tröskelvärde för den lägre percentilen och använd tröskelvärdet som ersättningsvärde. I följande tabell jämförs dessa två resultat:
Ersätt med saknas; Övre tröskelvärde = 90; Lägre tröskelvärde = 10
Ersätt med tröskelvärde; Övre percentil = 60; Lägre percentil = 30
Ursprungliga data | Ersätt med saknas | Ersätt med tröskelvärde |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE TRUE |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Teknisk information
Du kan bara använda Clip Values (Clip-värden) på kolumner som innehåller tal eller datum/tid-värden.
Om du inkluderar kolumner som har text eller kategoridata hoppas kolumnerna över.
Saknade värden ignoreras när medelvärdet eller medianvärdet beräknas för en kolumn.
Clip Values stöder inte ordningstalsdata.
Saknade värden ändras inte när de sprids till utdatauppsättningen. Kolumnen som anger urklippta värden innehåller alltid FALSE för saknade värden.
Förväntade indata
Namn | Typ | Description |
---|---|---|
Datamängd | Datatabell | Indatauppsättning |
Modulparametrar
Name | Intervall | Typ | Standardvärde | Description |
---|---|---|---|---|
Lägga till indikatorkolumner | TRUE/FALSE | Boolesk | FALSE | Om du vill lägga till indikator för urklippning av ett värde görs |
Konstant värde för lägre tröskelvärde | valfri | Float | -1 | Det värde under vilket undertalen klipps |
Konstant värde för övre tröskelvärde | valfri | Float | 1 | Värde över vilket topparna klipps |
Konstant värde för lägre tröskelvärde | valfri | Float | -1 | Värde under vilket undertalen klipps |
Konstant värde för övre tröskelvärde | >= 1 | Float | 1 | Värde över vilket topparna klipps |
Lista över kolumner | ColumnSelection | Lista över kolumner som ska klipps ut | ||
Lägre ersättningsvärde | Tröskelvärde Medelvärde Median Saknas |
SubstituteValues | Tröskelvärde | Värdet som används för cpeak subpeaks |
Lägre tröskelvärde | Konstant Percentil |
Tröskelläge | Konstant | Värde under vilket undertalen kommer att vara urklippt läge |
Overwrite flag (Överskrivningsflagga) | TRUE/FALSE | Boolesk | TRUE | Om urklippta datakolumner måste skriva över indatakolumner |
Percentilvärde för lägre tröskelvärde | [1;99] | Integer | 1 | Percentiltal under vilket undertalen klipps |
Percentilvärde för övre tröskelvärde | [1;99] | Integer | 99 | Percentilnummer över vilket topparna klipps |
Percentilantal för lägre tröskelvärde | [1;99] | Integer | 1 | Percentiltal under vilket undertalen klipps |
Percentilen för det övre tröskelvärdet | [1;99] | Integer | 99 | Percentilnummer som topparna klipps över |
Uppsättning tröskelvärden | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Tröskeluppsättning | ClipPeaks | Anger vilken typ av tröskelvärde som ska användas |
Ersättningsvärde för toppar | Tröskelvärde Medelvärde Median Saknas |
SubstituteValues | Tröskelvärde | Det värde som används under c peaks (klippningstoppar) |
Ersättningsvärde för subpeaks | Tröskelvärde Medelvärde Median Saknas |
SubstituteValues | Tröskelvärde | Det värde som används vid cpeak subpeaks |
Tröskelvärde | Konstant Percentil |
Tröskelläge | Konstant | Värde över och under vilket topparna kommer att vara urklippt läge |
Övre ersättningsvärde | Tröskelvärde Medelvärde Median Saknas |
Tröskelvärde | Tröskelvärde | Värdet som används för urklippstoppar |
Övre tröskelvärde | Konstant Percentil |
Tröskelläge | Konstant | Värde över vilket topparna kommer att vara urklippt läge |
Utdata
Namn | Typ | Description |
---|---|---|
Resultatdatauppsättning | Datatabell | Datauppsättning med urklippta kolumner |
Undantag
Undantag | Description |
---|---|
Fel 0011 | Undantaget inträffar om det skickade kolumnuppsättningsargumentet inte gäller för någon av datauppsättningskolumnerna. |
Fel 0017 | Undantaget inträffar om en eller flera angivna kolumner har en typ som inte stöds av den aktuella modulen. |
En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.
En lista över API-undantag finns i Machine Learning REST API felkoder.