Gegevens samenvatten
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Genereert een basisrapport met beschrijvende statistieken voor de kolommen in een gegevensset
Categorie: Statistische functies
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt beschreven hoe u de module Gegevens samenvatten in Machine Learning Studio (klassiek) gebruikt om een set standaard statistische metingen te maken die elke kolom in de invoertabel beschrijven.
Dergelijke samenvattingsstatistieken zijn handig als u de kenmerken van de volledige gegevensset wilt begrijpen. U moet bijvoorbeeld het volgende weten:
- Hoeveel ontbrekende waarden zijn er in elke kolom?
- Hoeveel unieke waarden zijn er in een functiekolom?
- Wat is het gemiddelde en de standaarddeviatie voor elke kolom?
De module berekent de belangrijke scores voor elke kolom en retourneert een rij met samenvattingsstatistieken voor elke variabele (gegevenskolom) die als invoer wordt opgegeven.
Tip
Mogelijk weet u al dat u een korte lijst met statistieken kunt krijgen met behulp van de optie Visualiseren in Studio (klassiek). Deze visualisatie wordt echter gemaakt op basis van een aantal bovenste rijen. De module Gegevens samenvatten berekent daarentegen de statistieken voor alle rijen met gegevens.
Gegevens samenvatten gebruiken
Voeg de module Gegevens samenvatten toe aan uw experiment. U vindt deze module in de categorie Statistische functies in Studio (klassiek).
Verbinding maken de gegevensset waarvoor u een rapport wilt genereren.
Als u slechts over enkele kolommen wilt rapporteren, gebruikt u de module Kolommen in gegevensset selecteren om een subset kolommen te projecten om mee te werken.
Er zijn geen aanvullende parameters vereist. De module analyseert standaard alle kolommen die zijn opgegeven als invoer en levert, afhankelijk van het type waarden in de kolommen, een relevante set statistieken zoals beschreven in de sectie Resultaten.
Voer het experiment uit of klik met de rechtermuisknop op de module en selecteer Uitvoeren geselecteerd.
Resultaten
Het rapport van de module kan de volgende statistieken bevatten.
De exacte statistieken die worden gegenereerd, zijn afhankelijk van het kolomgegevenstype. Zie de sectie Technische notities voor meer informatie.
Er wordt van uitgegaan dat de exemplaren deel uitmaken van een representatieve steekproef van een populatie. Als u statistieken wilt berekenen voor een populatie, gebruikt u de opties in de module Compute Statistics, waarmee u steekproef- of populatiestatistieken kunt berekenen.
Kolomnaam | Beschrijving |
---|---|
Functie | Naam van de kolom |
Count | Aantal van alle rijen |
Aantal unieke waarden | Aantal unieke waarden in kolom |
Aantal ontbrekende waarden | Aantal unieke waarden in kolom |
Min | Laagste waarde in kolom |
Max | Hoogste waarde in kolom |
Bedoel | Gemiddelde van alle kolomwaarden |
Gemiddelde afwijking | Gemiddelde afwijking van kolomwaarden |
1e kwartiel | Waarde op het eerste kwartiel |
Mediaan | Mediaankolomwaarde |
Derde kwartiel | Waarde op derde kwartiel |
Modus | Modus van kolomwaarden |
Bereik | Geheel getal dat het aantal waarden tussen de maximum- en minimumwaarden vertegenwoordigt |
Voorbeeldvariantie | Variantie voor kolom; zie Opmerking |
Standaardafwijking van voorbeeld | Standaarddeviatie voor kolom; zie Opmerking |
Voorbeeld van scheefheid | Ascheefheid voor kolom; zie Opmerking |
Voorbeeld van Eendje | Hadoe voor kolom; zie Opmerking |
P0.5 | 0,5% percentiel |
P1 | 1% percentiel |
P5 | 5% percentiel |
P95 | 95% percentiel |
P99.5 | 99,5% percentiel |
Tip
Voer het statistiekenrapport uit als een tabellaire gegevensset, zodat u de gegevens in BI-rapportagehulpprogramma's kunt gebruiken of de waarden kunt gebruiken als invoer voor een andere bewerking in het experiment.
Voorbeelden
Voor voorbeelden van het gebruik van de module Gegevens samenvatten in een experiment, zie de Azure AI Gallery:
Gegevensset downloaden van UCI: leest een gegevensset in CSV-indeling met behulp van de URL in de UCI Machine Learning-opslagplaats en genereert enkele basisstatistieken over de gegevensset.
Gegevenssetverwerking en -analyse: laadt de gegevensset in de werkruimte, wijzigt kolomnamen en voegt metagegevens toe.
Voorspelling van prestaties van studenten: leest gegevens die zijn opgeslagen in TSV-indeling vanuit Azure Blob Storage.
Technische opmerkingen
Voor numerieke en Booleaanse kolommen kunt u het gemiddelde, de mediaan, de modus en de standaarddeviatie als uitvoer gebruiken.
Voor niet-numerieke kolommen worden alleen de waarden voor Aantal, Uniek waarde aantal en Aantal ontbrekende waarden berekend. Voor andere statistieken wordt een null-waarde geretourneerd.
Kolommen die Booleaanse waarden bevatten, worden verwerkt met behulp van deze regels:
Bij het berekenen van Min wordt een logische AND toegepast.
Bij het berekenen van het maximum wordt een logische OR toegepast
Bij het berekenen van Bereik controleert de module eerst of het aantal unieke waarden in de kolom gelijk is aan 2.
Bij het berekenen van statistische gegevens die drijvende-puntberekeningen vereisen, worden de waarden van Waar behandeld als 1.0 en worden de waarden onwaar behandeld als 0.0.
Verwachte invoer
Naam | Type | Description |
---|---|---|
Gegevensset | Gegevenstabel | Invoerset |
Uitvoer
Naam | Type | Description |
---|---|---|
Gegevensset met resultaten | Gegevenstabel | Een profiel van de invoergegevensset die beschrijvende statistieken bevat |
Uitzonderingen
Uitzondering | Description |
---|---|
Fout 0003 | Uitzondering treedt op als een of meer invoer null of leeg zijn. |
Fout 0020 | Uitzondering treedt op als het aantal kolommen in sommige gegevenssets dat aan de module wordt doorgegeven te klein is. |
Fout 0021 | Uitzondering treedt op als het aantal rijen in sommige gegevenssets dat aan de module wordt doorgegeven te klein is. |
Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).
Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.