De voorbeeldgegevenssets gebruiken in Machine Learning Studio (klassiek)
VAN TOEPASSING OP: Machine Learning Studio (klassiek)
Azure Machine Learning
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen van machine learning-projecten van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Wanneer u een nieuwe werkruimte maakt in Machine Learning Studio (klassiek), worden standaard een aantal voorbeeldgegevenssets en experimenten opgenomen. Veel van deze gegevenssets met voorbeelden worden gebruikt in de voorbeeldmodellen in Azure AI Gallery. Andere zijn opgenomen als voorbeelden van verschillende typen gegevens die doorgaans in machine learning worden gebruikt.
Sommige van deze gegevenssets zijn beschikbaar in Azure Blob-opslag. De volgende tabel bevat een directe koppeling naar deze gegevenssets. U kunt deze gegevenssets in uw experimenten gebruiken met behulp van de module Gegevens importeren.
De rest van deze gegevenssets met voorbeelden is beschikbaar in uw werkruimte onder Opgeslagen gegevenssets. U kunt dit vinden in het modulepalet links van het experimenteercanvas in Machine Learning Studio (klassiek). U kunt deze gegevenssets voor uw eigen experiment gebruiken door ze naar uw experimenteercanvas te slepen.
Gegevenssets
Naam van de gegevensset | Beschrijving van gegevensset |
---|---|
Gegevensset Binaire classificatie voor volwassen Census-inkomen | Een subset van de 1994 Census-database, gebruikmakend van werkende volwassenen boven de 16 jaar met een aangepaste inkomstenindex van > 100. Gebruik: Classificeer personen die demografische gegevens gebruiken om te voorspellen of een persoon meer dan 50.000 per jaar verdient. Gerelateerd onderzoek: Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Gegevensset met luchthavencodes | Amerikaanse luchthavencodes. Deze gegevensset bevat één rij voor elke Amerikaanse luchthaven, waarin het identificatienummer en de naam van de luchthaven en tevens de plaats en staat van de locatie. |
Autoprijsgegevens (onbewerkt) | Informatie over auto’s per merk en model, waaronder de prijs, kenmerken zoals het aantal cilinders en MPG, evenals een verzekeringsrisicoscore. De risicoscore is aanvankelijk gekoppeld aan de autoprijs. Vervolgens wordt het aangepast voor daadwerkelijk risico in een proces dat verzekeringswiskundigen symbolisering noemen. Een waarde van +3 geeft aan dat de auto risicovol is, en een waarde van -3 dat deze waarschijnlijk veilig is. Gebruik: De risicoscore voorspellen op basis van functies, met behulp van regressie of multivariate classificatie. Gerelateerd onderzoek: Schlimmer, J.C. (1987). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Bike Rental UCI-gegevensset | UCI Bike Rental-gegevensset op basis van reële gegevens van het bedrijf Capital Bikeshare, dat een netwerk voor fietsverhuur in Washington D.C. verzorgt. De gegevensset heeft één rij voor elk uur van elke dag in 2011 en 2012, met in totaal 17.379 rijen. Het bereik van het aantal verhuurde fietsen per uur is 1 tot en met 977. |
RGB-afbeelding van Bill Gates | Openbaar beschikbaar afbeeldingsbestand dat naar CSV-gegevens is geconverteerd. De code voor het converteren van de afbeelding vindt u op de pagina met modeldetails Color quantization using k-Means clustering (Kwantisatie van kleuren door middel van k-Means-clustering). |
Bloeddonatiegegevens | Een subset met gegevens uit de database met bloeddonoren van het servicecentrum voor bloedtransfusie van Hsinchu (stad) in Taiwan. Donorgegevens omvatten de maand sinds de laatste donatie, de frequentie of het totale aantal donaties, de tijd sinds de laatste donatie en de hoeveelheid gedoneerd bloed. Gebruik: Het doel is om te voorspellen via classificatie of de donor in maart 2007 bloed heeft gedoneerd, waarbij 1 een donor aangeeft tijdens de doelperiode en 0 een niet-donor. Gerelateerd onderzoek: Yeh, I.C., (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018 |
Borstkankergegevens | Een van de drie aan kanker gerelateerde gegevenssets die worden verstrekt door het oncologie-instituut dat regelmatig in de literatuur over machine learning voorkomt. Hierin worden diagnostische gegevens met kenmerken van laboratoriumanalyse van circa 300 weefselmonsters gecombineerd. Gebruik: Classificeer het type kanker, op basis van 9 kenmerken, waarvan sommige lineair en sommige categorisch zijn. Gerelateerd onderzoek: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Borstkankerfuncties | De gegevensset bevat informatie over 102.000 verdachte regio's (kandidaten) met röntgenfoto's, die elk door 117 kenmerken worden beschreven. De kenmerken zijn privé en de betekenis ervan wordt niet vrijgegeven door de makers van de gegevensset (Siemens Healthcare). |
Borstkankerinfo | De gegevensset bevat aanvullende informatie voor elke verdachte regio met een röntgenfoto. Elk voorbeeld bevat informatie (bijvoorbeeld label, patiënt-id, coördinaten van de plek ten opzichte van de hele foto) over het overeenkomstige rijnummer in de gegevensset Kenmerken van borstkanker. Voor elke patiënt is er een aantal voorbeelden. Voor patiënten met kanker zijn enkele voorbeelden positief en sommige negatief. Voor patiënten die geen kanker hebben, zijn alle voorbeelden negatief. De gegevensset bevat 102.000 voorbeelden. De gegevensset is vertekend; 0,6% van de punten is positief, de rest negatief. De gegevensset is beschikbaar gesteld door Siemens Healthcare. |
Gedeelde labels CRM-verlangen | Labels uit de KDD Cup 2009-uitdaging Klantrelaties voorspellen (orange_small_train_appetency.labels). |
Gedeelde labels CRM-verloop | Labels uit de KDD Cup 2009-uitdaging Klantrelaties voorspellen (orange_small_train_churn.labels). |
Gedeelde CRM-gegevensset | Deze gegevens komen uit de KDD Cup 2009-uitdaging Klantrelaties voorspellen (orange_small_train.data.zip). De gegevensset bevat 50.000 klanten van het Franse telecombedrijf Orange. Elke klant heeft 230 geanonimiseerde kenmerken, waarvan 190 numeriek en 40 categorisch zijn. De kenmerken zijn zeer verspreid. |
Gedeelde labels CRM-upselling | Labels uit de KDD Cup 2009-wedstrijd Klantrelaties voorspellen (orange_large_train_upselling.labels). |
Regressiegegevens over energiezuinigheid | Een verzameling gesimuleerde energieprofielen op basis van twaalf verschillende gebouwvormen. De gebouwen worden op acht kenmerken onderscheiden. Deze zijn onder meer het glasoppervlak, de verdeling en de oriëntatie van het glas. Gebruik: Gebruik regressie of classificatie om de energie-efficiëntieclassificatie te voorspellen op basis van een van twee echte gewaardeerde antwoorden. Voor classificaties met meerdere klassen is rond de responsevariabele tot op het dichtstbijzijnde gehele getal. Gerelateerd onderzoek: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Gegevens over vluchtvertragingen |
Passagiersvlucht on-time prestatiegegevens die zijn genomen uit de TranStats-gegevensverzameling van het Amerikaanse Ministerie van Transport (On-Time).
De gegevensset dekt de tijdsperiode april t/m oktober 2013. Voordat u naar Machine Learning Studio (klassiek) uploadt, is de gegevensset als volgt verwerkt:
|
Vlucht op tijd (onbewerkt) | Records van aankomst en vertrek van vliegtuigen binnen de Verenigde Staten vanaf oktober 2011. Gebruik: Vluchtvertragingen voorspellen. Gerelateerd onderzoek: Van US Dept. of Transportation https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time. |
Bosbrandgegevens | Bevat weersgegevens, zoals temperatuurs- en vochtigheidsindices en windsnelheid. De gegevens zijn afkomstig van een gebied in het noordoosten van Portugal, gecombineerd met records van bosbranden. Gebruik: Dit is een moeilijke regressietaak, waarbij het doel is om het verbrande gebied van bosbranden te voorspellen. Gerelateerd onderzoek: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science [Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Linkerkant, M. F. Santos en J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Beschikbaar op: http://www.dsi.uminho.pt/~pcortez/fires.pdf. |
Gegevensset UCI German Credit Card | De gegevensset UCI Statlog (German Credit Card) (Statlog+German+Credit+Data), die het german.data-bestand gebruikt. De gegevensset classificeert personen, beschreven door een set kenmerken, als laag of hoog kredietrisico. Elk voorbeeld vertegenwoordigt een persoon. Er zijn 20 kenmerken, zowel numeriek als categorisch, en een binair label (de kredietrisicowaarde). Vermeldingen van een hoog kredietrisico hebben label = 2, vermeldingen van een laag kredietrisico hebben label = 1. De kosten van het verkeerd classificeren van een voorbeeld met laag risico als hoog is 1, en de kosten van het verkeerd classificeren van een voorbeeld met hoog risico als laag is 5. |
IMDB-filmtitels | De gegevensset bevat informatie over films die zijn geclassificeerd in Twitter-tweets: IMDB-film-id, filmnaam, genre en productiejaar. De gegevensset bevat 17.000 films. De gegevensset werd geïntroduceerd in het rapport "S. Dooms, T. De Pessemier en L. Martens. MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013." |
Iris-gegevens in twee klassen | Dit is wellicht de bekendste database uit de literatuur over patroonherkenning. De gegevensset is relatief klein, met vijftig voorbeelden elk van de maten van de kroonbladen van irisvarianten. Gebruik: Voorspel het iristype van de metingen. Gerelateerd onderzoek: Fisher, R.A. (1988). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Filmtweets | Deze gegevensset is een uitgebreide versie van de gegevensset MovieTweetings. De gegevensset bevat 170.000 beoordelingen van films, geëxtraheerd uit goed gestructureerde tweets op Twitter. Elk exemplaar vertegenwoordigt een tweet en is een tuple: gebruikers-ID, IMDB-film-ID, beoordeling, tijdstempel, aantal vind-ik-leuks van deze tweet en aantal retweets van deze tweet. De gegevensset werd beschikbaar gesteld door A. Said, S. Dooms, B. Loni en D. Tikk voor Recommender Systems Challenge 2014. |
Gegevens over brandstofverbruik van diverse auto's | Deze gegevensset is een enigszins gewijzigde versie van de gegevensset die door de StatLib-bibliotheek van Carnegie Mellon University wordt verstrekt. De gegevensset is gebruikt in de uiteenzetting van de American Statistical Association uit 1983. In de lijst staat het brandstofverbruik van verschillende auto's in mijlen per gallon vermeld. Het bevat ook informatie als het aantal cilinders, de cilinderinhoud, het vermogen, het totale gewicht en de acceleratie. Gebruik: Voorspel brandstofverbruik op basis van drie discrete kenmerken met meerdere waarden en vijf doorlopende kenmerken. Gerelateerd onderzoek: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Gegevensset voor binaire classificatie van diabetes bij Pima-indianen | Een gegevenssubset uit de database van het National Institute of Diabetes and Digestive and Kidney Diseases. De gegevensset is gefilterd om de nadruk te leggen op vrouwelijke Pima-patiënten. De gegevens omvatten medische gegevens, zoals glucose- en insulinespiegels, en levensstijlfactoren. Gebruik: Voorspellen of het onderwerp diabetes heeft (binaire classificatie). Gerelateerd onderzoek: Sigillito, V. (1990). UCI Machine Learning Repository https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science |
Gegevens van bezoekers van restaurants | Een set metagegevens over klanten, inclusief demografische informatie en voorkeuren. Gebruik: Gebruik deze gegevensset in combinatie met de andere twee restaurantgegevenssets om een aanbevelingssysteem te trainen en te testen. Gerelateerd onderzoek: Bache, K. en Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Gegevens over restaurantkenmerken | Een set metagegevens over restaurants en hun kenmerken, zoals type gerechten, beoogd publiek en locatie. Gebruik: Gebruik deze gegevensset in combinatie met de andere twee restaurantgegevenssets om een aanbevelingssysteem te trainen en te testen. Gerelateerd onderzoek: Bache, K. en Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Restaurantbeoordelingen | Bevat beoordelingen van gebruikers over restaurants op een schaal van 0 tot 2. Gebruik: Gebruik deze gegevensset in combinatie met de andere twee restaurantgegevenssets om een aanbevelingssysteem te trainen en te testen. Gerelateerd onderzoek: Bache, K. en Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Gegevensset van meerdere klassen over gloeien van staal | Deze gegevensset bevat een reeks records uit experimenten over het gloeien van staal. Het bevat de fysieke kenmerken (breedte, dikte, type (rol, blad, enzovoort) van de resulterende staaltypen. Gebruik: Voorspel een van de twee numerieke klassekenmerken; hardheid of sterkte. U kunt ook correlaties tussen kenmerken analyseren. Staalkwaliteiten volgen een vaste standaard, gedefinieerd door SAE en andere organisaties. U zoekt een specifieke 'kwaliteit' (de klassevariabele) en u wilt meer inzicht krijgen in de benodigde waarden. Gerelateerd onderzoek: Sterling, D. & Buntine, W. (NA). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Een nuttige handleiding voor staalkwaliteiten vindt u hier: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf |
Telescoopgegevens | Record van hoogenergetische uitbarstingen van gammadeeltjes in combinatie met achtergrondruis, beide gesimuleerd met behulp van een Monte Carlo-methode. Het doel van de simulatie is om de nauwkeurigheid te verbeteren van telescopen op de grond voor de detectie van atmosferische gammastraling. Dit gebeurt aan de hand van statistische methoden om onderscheid te maken tussen het gewenste signaal (Cherenkovstraling) en achtergrondruis (deeltjesstroom van hadronen die door kosmische straling in de bovenste lagen van de atmosfeer worden opgewekt). De gegevens zijn voorbewerkt om een verlengd cluster te maken waarbij de lange as op het centrale deel van de camera is gericht. De kenmerken van deze ellips (ook wel Hillasparameters genoemd) zijn parameters van de afbeelding die ter onderscheiding kunnen worden gebruikt. Gebruik: Voorspellen of een afbeelding van een douche signaal of achtergrondruis vertegenwoordigt. Opmerkingen: Eenvoudige classificatienauwkeurigheid is niet zinvol voor deze gegevens, omdat het classificeren van een achtergrondgebeurtenis als signaal slechter is dan het classificeren van een signaalgebeurtenis als achtergrond. Voor het vergelijken van verschillende classificatoren moet de ROC-curve worden gebruikt. De kans op het accepteren van een achtergrondgebeurtenis als signaal moet onder een van de volgende drempelwaarden staan: 0,01, 0.02, 0.05, 0.1 of 0.2. Houd er ook rekening mee dat het aantal achtergrondgebeurtenissen (h, voor hadronische deeltjesstroom) wordt onderschat. In echte metingen vertegenwoordigt de h of ruisklasse het merendeel van de gebeurtenissen. Gerelateerd onderzoek: Bock, R.K. (1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information |
Gegevensset Weer |
Weerobservaties op het land per uur van NOAA (samengevoegde gegevens van 201304 tot 201310).
De weersgegevens komen van observaties uit weerstations op luchthavens en dekken de tijdsperiode april t/m oktober 2013. Voordat u naar Machine Learning Studio (klassiek) uploadt, is de gegevensset als volgt verwerkt:
|
Gegevensset Wikipedia SP 500 |
Gegevens zijn afkomstig van Wikipedia (https://www.wikipedia.org/) op basis van artikelen van elk S&P 500-bedrijf, opgeslagen als XML-gegevens.
Voordat u naar Machine Learning Studio (klassiek) uploadt, is de gegevensset als volgt verwerkt:
|
direct_marketing.csv | De gegevensset bevat klantgegevens en indicaties over hun reactie op een direct-mailingcampagne. Elke rij stelt een klant voor. De gegevensset bevat negen functies voor demografische gegevens van gebruikers en gedrag in het verleden, en drie labelkolommen (bezoek, conversie en uitgaven). Bezoek is een binaire kolom die aangeeft dat een klant na de marketingcampagne een bezoek heeft gebracht. Conversie geeft aan dat een klant iets heeft gekocht. Uitgaven is het bedrag dat is uitgegeven. De gegevensset is beschikbaar gesteld door Kevin Hillstrom voor MineThatData E-Mail Analytics And Data Mining Challenge. |
lyrl2004_tokens_test.csv | Kenmerken van testvoorbeelden in de RCV1-V2-gegevensset met nieuwsberichten van Reuters. De gegevensset bevat 781.000 nieuwsartikelen samen met hun id (eerste kolom van de gegevensset). Elk artikel wordt gesplitst in afzonderlijke woorden (tokenized), ontdaan van woorden met weinig inhoud (stopworded) en ontdaan van voor- en achtervoegsels met weinig of geen inhoud (stemmed). De gegevensset is beschikbaar gesteld door David. D. Lewis. |
lyrl2004_tokens_train.csv | Kenmerken van trainingsvoorbeelden in de RCV1-V2-gegevensset met nieuwsberichten van Reuters. De gegevensset bevat 23.000 nieuwsartikelen samen met hun id (eerste kolom van de gegevensset). Elk artikel wordt gesplitst in afzonderlijke woorden (tokenized), ontdaan van woorden met weinig inhoud (stopworded) en ontdaan van voor- en achtervoegsels met weinig of geen inhoud (stemmed). De gegevensset is beschikbaar gesteld door David. D. Lewis. |
network_intrusion_detection.csv |
Gegevensset van de KDD Cup 1999: wedstrijd kennisdetectie en hulpmiddelen voor datamining (kddcup99. html). De gegevensset is gedownload en opgeslagen in Azure Blob Storage (network_intrusion_detection.csv) en bevat gegevenssets over trainingen en tests. De trainingsgegevensset bevat ongeveer 126.000 rijen en 43 kolommen, met inbegrip van de labels. Van de informatie op de labels maken drie kolommen deel uit. 40 kolommen, bestaande uit numerieke en tekenreeks-/categorische functies, zijn beschikbaar om het model te trainen. De testgegevens bevatten circa 22.500 testvoorbeelden, met dezelfde 43 kolommen als in de trainingsgegevens. |
rcv1-v2.topics.qrels.csv | Thematoewijzingen voor nieuwsartikelen in de RCV1-V2-gegevensset met nieuwsberichten van Reuters. Een nieuwsartikel kan aan verschillende thema's worden toegewezen. De indeling van elke rij is '<onderwerpnaam><document-id> 1'. De gegevensset bevat 2.600.000 thematoewijzingen. De gegevensset is beschikbaar gesteld door David. D. Lewis. |
student_performance.txt | Deze gegevens zijn afkomstig uit de KDD Cup 2010: wedstrijd evaluatie van prestaties van studenten (evaluatie van prestaties van studenten). De gebruikte gegevens zijn de Algebra_2008_2009 trainingsset (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Wedstrijdgegevensset van de KDD Cup 2010: wedstrijd datamining voor onderwijsdoeleinden. U vindt het op downloads.jsp. De gegevensset is gedownload en opgeslagen in Azure Blob Storage (student_performance.txt) en bevat logboekbestanden uit een tutoring-systeem voor studenten. De verstrekte kenmerken omvatten de probleem-id en een korte beschrijving, student-id, tijdstempel en het aantal pogingen dat de student heeft gedaan voordat het probleem op de juiste manier werd opgelost. De oorspronkelijke gegevensset bevat 8.900.000 records; deze gegevensset is gereduceerd tot de eerste 100.000 rijen. De gegevensset heeft 23 door tabs gescheiden kolommen van verschillende typen: numeriek, categorisch en tijdstempel. |