Konvertera till datamängd
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Konverterar indata till det interna datamängdsformatet som används av Microsoft Machine Learning
Kategori: Dataformatkonverteringar
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
Den här artikeln beskriver hur du använder modulen Konvertera till datamängd i Machine Learning Studio (klassisk) för att konvertera alla data som du kan behöva för ett experiment till det interna format som används av Studio (klassisk).
Konvertering krävs inte i de flesta fall eftersom Machine Learning implicit konverterar data till sitt ursprungliga datamängdsformat när någon åtgärd utförs på data.
Vi rekommenderar dock att du sparar data i datamängdsformatet om du har utfört någon typ av normalisering eller rensning av en uppsättning data, och du vill se till att ändringarna används i ytterligare experiment.
Anteckning
Konvertera till datauppsättning ändrar endast dataformatet och sparar inte en ny kopia av data i arbetsytan. Om du vill spara datauppsättningen dubbelklickar du på utdataporten, väljer Spara som datauppsättning och skriver ett nytt namn.
Så här använder du Konvertera till datauppsättning
Vi rekommenderar att du använder modulen Redigera metadata för att förbereda datauppsättningen innan du använder Konvertera till datauppsättning. Du kan lägga till eller ändra kolumnnamn, justera datatyper och så vidare.
Lägg till modulen Konvertera till datauppsättning i experimentet. Du hittar den här modulen i kategorin Konverteringar av dataformat i Machine Learning Studio (klassisk).
Anslut den till valfri modul som matar ut en datauppsättning.
Så länge data är tabell kan du konvertera dem till en datauppsättning. Detta inkluderar data som läses in med importdata, data som skapats med hjälp av Ange data manuellt, data som genererats av kod i anpassade moduler, datauppsättningar som transformerats med hjälp av Tillämpa transformering eller datauppsättningar som genererats eller ändrats med hjälp av Tillämpa SQL-transformering.
I listrutan Åtgärd anger du om du vill rensa data innan du sparar datauppsättningen:
Ingen: Använd data som de är.
SetMissingValue: Ange en platshållare som infogas i datauppsättningen där det saknas ett värde. Standardplatshållaren är frågetecknet (?), men du kan använda alternativet Anpassat värde som saknas för att ange ett annat värde.
ReplaceValues: Använd det här alternativet för att ange ett enskilt exakt värde som ska ersättas med andra exakta värden. Om dina data till exempel innehåller strängen
obs
som används som platshållare för saknade värden kan du ange en anpassad ersättningsåtgärd med hjälp av följande alternativ:Ställ in Ersätt på Anpassad
För Anpassat värde anger du det värde som du vill hitta. I det här fallet skulle du skriva
obs
.För Nytt värde skriver du det nya värdet som ska ersätta den ursprungliga strängen med. I det här fallet kan du skriva
?
Observera att åtgärden ReplaceValues endast gäller för exakta matchningar. Dessa strängar påverkas till exempel inte:
obs.
,obsolete
.- SparseOutput: Anger att datauppsättningen är gles. Genom att skapa en gles datavektor kan du se till att saknade värden inte påverkar en gles datadistribution. När du har valt det här alternativet måste du ange hur saknade värden och nollvärden ska hanteras.
Om du vill ta bort ett annat värde än noll klickar du på alternativet Ta bort och skriver ett enskilt värde som ska tas bort. Du kan ta bort saknade värden eller ange ett anpassat värde som ska tas bort från vektorn. Endast exakta matchningar tas bort. Om du till exempel skriver
x
i textrutan Ta bort värde påverkasxx
inte raden.Som standard är alternativet Ta bort nollor inställt på
True
, vilket innebär att alla nollvärden tas bort när den glesa kolumnen skapas.Kör experimentet eller högerklicka på modulen Konvertera till datauppsättning och välj Kör valt.
Resultat
- Om du vill spara den resulterande datauppsättningen med ett nytt namn högerklickar du på utdata för Konvertera till datauppsättning och väljer Spara som datauppsättning.
Exempel
Du kan se exempel på hur modulen Konvertera till datauppsättning används i Azure AI Gallery:
CRM-exempel: Läser från en delad datauppsättning och sparar en kopia av datauppsättningen på den lokala arbetsytan.
Exempel på flygfördröjning: Sparar en datauppsättning som har rensats genom att ersätta saknade värden så att du kan använda den för framtida experiment.
Teknisk information
Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.
Alla moduler som tar en datauppsättning som indata kan också ta data i CSV-, TSV- eller ARFF-format. Innan någon modulkod körs utförs förbearbetning av indata, vilket motsvarar att köra modulen Konvertera till datauppsättning på indata.
Du kan inte konvertera från SVMLight-formatet till datauppsättningen.
När du anger en anpassad ersättningsåtgärd tillämpas sök- och ersättningsåtgärden på fullständiga värden. partiella matchningar tillåts inte. Du kan till exempel ersätta 3 med -1 eller med 33, men du kan inte ersätta 3 med ett tvåsiffrigt tal, till exempel 35.
För anpassade ersättningsåtgärder misslyckas ersättningen tyst om du ersätter alla tecken som inte överensstämmer med kolumnens aktuella datatyp.
Om du behöver spara data som använder numeriska data som är glesa och som saknar värden, stöder Studio (klassisk) internt glesa matriser med hjälp av en SparseVector, som är en klass i det Math.NET numeriska biblioteket. Förbered dina data som använder nollor och som har saknade värden och använd sedan Konvertera till datauppsättning med argumenten SparseOutput och Remove Zeros = TRUE.
Förväntade indata
Namn | Typ | Description |
---|---|---|
Datamängd | Datatabell | Indatauppsättning |
Modulparametrar
Name | Intervall | Typ | Standardvärde | Beskrivning |
---|---|---|---|---|
Åtgärd | Lista | Åtgärdsmetod | Ingen | Åtgärd som ska tillämpas på indatauppsättning |
Utdata
Namn | Typ | Description |
---|---|---|
Resultatdatauppsättning | Datatabell | Utdatauppsättning |