Dela en datauppsättning med ett relativt uttryck
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Den här artikeln beskriver hur du använder alternativet Relativ uttrycksdelning i modulen Dela data i Machine Learning Studio (klassisk). Det här alternativet är användbart när du behöver dela upp en datauppsättning i tränings- och testningsdatauppsättningar med hjälp av ett numeriskt uttryck. Exempel:
- Ålder större än 40 jämfört med 40 år eller yngre
- Testpoäng på 60 eller högre jämfört med mindre än 60
- Rangvärde 1 jämfört med alla andra värden
Anteckning
Gäller endast för: Machine Learning Studio ( klassisk)
Liknande dra och släpp-moduler finns i Azure Machine Learning-designern.
Om du vill dela upp dina data väljer du en enda numerisk kolumn i dina data och definierar ett uttryck som ska användas för att utvärdera varje rad. Det relativa uttrycket måste innehålla kolumnnamnet, värdet och en operator, till exempel större än och mindre än, lika med och inte lika med.
Det här alternativet delar upp datauppsättningen i två grupper.
Allmän information om datapartitionering för maskininlärningsexperiment finns i Dela upp data och partitionera och dela.
Relaterade uppgifter
Andra alternativ i modulen Dela data :
Dela upp data med reguljära uttryck: Använd ett reguljärt uttryck i en enda textkolumn och dividera datauppsättningen baserat på resultaten
Datauppsättningar för delade rekommenderare: Dela upp datauppsättningar som används i rekommendationsmodeller. Datauppsättningen bör ha tre kolumner: objekt, användare och klassificeringar
Använda ett relativt uttryck för att dela upp en datauppsättning
Lägg till modulen Dela data i experimentet i Stuio och anslut den som indata till den datauppsättning som du vill dela upp.
För Delningsläge väljer du relativ uttrycksdelning.
I textrutan Relationsuttryck skriver du ett uttryck som utför en numerisk jämförelseåtgärd i en enda kolumn:
Kolumnen innehåller tal av valfri numerisk datatyp, inklusive datatyper för datum/tid.
Uttrycket kan referera till högst ett kolumnnamn.
Använd et-tecknet (&) för AND-åtgärden och använd pipe-tecknet (|) för OR-åtgärden.
Följande operatorer stöds:
<
,>
,<=
,>=
, ,==
!=
Du kan inte gruppera åtgärder med hjälp
(
av och)
.
Idéer finns i avsnittet Exempel .
Kör experimentet eller högerklicka på modulen och välj Kör valt.
Uttrycket delar upp datauppsättningen i två uppsättningar rader: rader med värden som uppfyller villkoret och alla återstående rader.
Om du behöver utföra ytterligare delade åtgärder kan du antingen lägga till en andra instans av *Split Data eller använda modulen Tillämpa SQL-transformering och definiera en CASE-instruktion.
Exempel på relatveuttryck
Följande exempel visar hur du delar upp en datamängd med hjälp av alternativet Relativt uttryck i modulen Dela data :
Använda kalenderår
Ett vanligt scenario är att dela upp en datauppsättning med år. Följande uttryck markerar alla rader där värdena i kolumnen Year
är större än 2010
.
\"Year" > 2010
Datumuttrycket måste ta hänsyn till alla datumdelar som ingår i datakolumnen, och datumformatet i datakolumnen måste vara konsekvent.
I en datumkolumn med formatet mmddyyyy
ska uttrycket till exempel vara ungefär så här:
\"Date" > 1/1/2010
Använda kolumnindex
Följande uttryck visar hur du kan använda kolumnindexet för att markera alla rader i den första kolumnen i datauppsättningen som innehåller värden som är mindre än eller lika med 30, men inte lika med 20.
(\0)<=30 & !=20
Sammansatt åtgärd i tidsvärden med flera delningar
Anta att du vill dela en tabell med loggdata för att gruppera frågor som körs för länge. Du kan använda följande relativa uttryck i kolumnen , Elapsed
för att hämta de frågor som kördes under 1 minut.
\"Elapsed" >00:01:00
Om du vill hämta frågor med svarstider under en minut men mer än 30 sekunder lägger du till ytterligare en instans av Dela data till högerutdata och använder ett uttryck som detta:
\"Elapsed" <:00:01:00 & >00:00:30
Dela upp datamängd på datumvärden
Följande relativa uttryck delar datauppsättningen med hjälp av datumvärdena i kolumnen dt1
.
\"dt1" > 10-08-2015
Rader med ett datum större än 10-08-2015 läggs till i den första (vänstra) utdatauppsättningen.
Rader med datumet 10-08-2015 eller tidigare läggs till i den andra (högra) utdatauppsättningen.
Tekniska anteckningar
Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.
Begränsningar
Följande begränsningar gäller för relativa uttryck i en datauppsättning:
- Relativa uttryck kan endast tillämpas på numeriska datatyper och datatyper för datum/tid.
- Relativa uttryck kan referera till högst ett kolumnnamn.
- Använd et-tecknet (&) för AND-åtgärden och pipe-tecknet (|) för OR-åtgärden.
- Följande operatorer tillåts för relativa uttryck:
<
,>
,<=
,>=
, ,==
!=
- Grupperingsåtgärder med parenteser stöds inte.