Sammanfatta data
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Genererar en grundläggande beskrivande statistikrapport för kolumnerna i en datauppsättning
Kategori: Statistiska funktioner
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
Den här artikeln beskriver hur du använder modulen Sammanfatta data i Machine Learning Studio (klassisk) för att skapa en uppsättning statistiska standardmått som beskriver varje kolumn i indatatabellen.
Sådan sammanfattande statistik är användbar när du vill förstå egenskaperna för den fullständiga datauppsättningen. Du kan till exempel behöva känna till:
- Hur många saknade värden finns det i varje kolumn?
- Hur många unika värden finns det i en funktionskolumn?
- Vad är medelvärdet och standardavvikelsen för varje kolumn?
Modulen beräknar viktiga poäng för varje kolumn och returnerar en rad sammanfattningsstatistik för varje variabel (datakolumn) som anges som indata.
Tips
Du kanske redan vet att du kan få en kort lista med statistik med hjälp av alternativet Visualisera i Studio (klassisk). Den här visualiseringen skapas dock baserat på några översta antal rader. Däremot beräknar modulen Sammanfatta data sin statistik på alla rader med data.
Så här använder du Sammanfatta data
Lägg till modulen Sammanfatta data i experimentet. Du hittar den här modulen i kategorin Statistiska funktioner i Studio (klassisk).
Anslut den datauppsättning som du vill generera en rapport för.
Om du bara vill rapportera om vissa kolumner använder du modulen Välj kolumner i datauppsättning för att projicera en delmängd kolumner att arbeta med.
Inga ytterligare parametrar krävs. Som standard analyserar modulen alla kolumner som anges som indata och, beroende på typen av värden i kolumnerna, matar ut en relevant uppsättning statistik enligt beskrivningen i avsnittet Resultat.
Kör experimentet eller högerklicka på modulen och välj Kör valt.
Resultat
Rapporten från modulen kan innehålla följande statistik.
Den exakta statistik som genereras beror på kolumndatatypen. Mer information finns i avsnittet Teknisk information.
Antagandet görs att instanserna tillhör ett representativt urval av en population. Om du behöver beräkna statistik för en population använder du alternativen i modulen Beräkna elementär statistik , som kan beräkna antingen urvals- eller populationsstatistik.
Kolumnnamn | Description |
---|---|
Funktion | Namnet på kolumnen |
Antal | Antal alla rader |
Unikt värdeantal | Antal unika värden i kolumnen |
Antal saknade värden | Antal unika värden i kolumnen |
Min | Lägsta värde i kolumnen |
Max | Högsta värdet i kolumnen |
Menar | Medelvärde för alla kolumnvärden |
Medelavvikelse | Medelvärdesavvikelse för kolumnvärden |
Första kvartilen | Värde vid den första kvartilen |
Medianvärde | Mediankolumnvärde |
Tredje kvartilen | Värde vid tredje kvartilen |
Läge | Läge för kolumnvärden |
Intervall | Heltal som representerar antalet värden mellan de högsta och lägsta värdena |
Exempelvarians | Varians för kolumn; se Anteckning |
Exempel på standardavvikelse | Standardavvikelse för kolumn; se Anteckning |
Snedhet i exemplet | Skevhet för kolumn; se Anteckning |
Sample Sampling | Så här gör du för kolumnen; se Anteckning |
P0.5 | 0,5 % percentil |
P1 | 1 % percentil |
P5 | 5 % percentil |
P95 | 95 % percentil |
P99.5 | 99,5 % percentil |
Tips
Mata ut statistikrapporten som en tabelldatamängd, så att du kan använda data i BI-rapporteringsverktyg eller använda värdena som indata till en annan åtgärd i experimentet.
Exempel
Exempel på hur du använder modulen Sammanfatta data i ett experiment finns i Azure AI Gallery:
Ladda ned datauppsättning från UCI: Läser en datauppsättning i CSV-format med hjälp av dess URL i UCI Machine Learning Repository och genererar viss grundläggande statistik om datauppsättningen.
Datamängdsbearbetning och -analys: Läser in datauppsättningen till arbetsytan, ändrar kolumnnamn och lägger till metadata.
Förutsägelse av elevprestanda: Läser data som lagras i TSV-format från Azure Blob Storage.
Teknisk information
För numeriska och booleska kolumner kan du mata ut medelvärde, median, läge och standardavvikelse.
För icke-numeriska kolumner beräknas endast värdena för Antal, Antal unika värden och Antal saknade värden. För annan statistik returneras ett null-värde.
Kolumner som innehåller booleska värden bearbetas med hjälp av följande regler:
Vid beräkning av Min tillämpas ett logiskt AND.
Vid beräkning av Max tillämpas ett logiskt OR
Vid beräkning av intervall kontrollerar modulen först om antalet unika värden i kolumnen är lika med 2.
När du beräknar statistik som kräver flyttal, behandlas värdena true som 1.0 och värdena false behandlas som 0,0.
Förväntade indata
Namn | Typ | Description |
---|---|---|
Datamängd | Datatabell | Indatauppsättning |
Utdata
Namn | Typ | Description |
---|---|---|
Resultatdatauppsättning | Datatabell | En profil för indatauppsättningen som innehåller beskrivande statistik |
Undantag
Undantag | Description |
---|---|
Fel 0003 | Undantaget inträffar om en eller flera indata är null eller tomma. |
Fel 0020 | Undantaget inträffar om antalet kolumner i vissa datauppsättningar som skickas till modulen är för litet. |
Fel 0021 | Undantaget inträffar om antalet rader i vissa datauppsättningar som skickas till modulen är för litet. |
En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.
En lista över API-undantag finns i Machine Learning REST API felkoder.