Använda exempeldatauppsättningarna i Machine Learning Studio (klassisk)
GÄLLER FÖR: Machine Learning Studio (klassisk)
Azure Machine Learning
Viktigt!
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
När du skapar en ny arbetsyta i Machine Learning Studio (klassisk) ingår ett antal exempeldatauppsättningar och experiment som standard. Många av dessa exempeldatauppsättningar används av exempelmodellerna i Azure AI-galleriet. Andra ingår som exempel på olika typer av data som vanligtvis används i maskininlärning.
Vissa av dessa datauppsättningar är tillgängliga i Azure Blob Storage. För dessa datauppsättningar innehåller följande tabell en direktlänk. Du kan använda dessa datauppsättningar i experimenten med hjälp av modulen Importera data .
Resten av dessa exempeldatauppsättningar är tillgängliga på din arbetsyta under Sparade datauppsättningar. Du hittar detta i modulpaletten till vänster om experimentarbetsytan i Machine Learning Studio (klassisk). Du kan använda någon av dessa datauppsättningar i ditt eget experiment genom att dra den till experimentarbetsytan.
Datauppsättningar
Namn på datauppsättning | Beskrivning av datauppsättning |
---|---|
Datauppsättning för binär klassificering av vuxnas censusinkomster | En delmängd av 1994 års folkräkningsdatabas med arbetande vuxna över 16 år med ett justerat inkomstindex på > 100. Användning: Klassificera personer som använder demografi för att förutsäga om en person tjänar över 50 000 om året. Relaterad forskning: Kohavi, R., Becker, B., (1996). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Datauppsättning för flygplatskoder | Amerikanska flygplatskoder. Den här datamängden innehåller en rad för varje amerikansk flygplats, vilket ger flygplats-ID-numret och namnet tillsammans med platsstad och delstat. |
Prisdata för bilar (rådata) | Information om bilar efter märke och modell, inklusive priset, funktioner som antalet cylindrar och MPG, samt en försäkringsriskpoäng. Riskpoängen är ursprungligen associerad med autopris. Den justeras sedan för faktisk risk i en process som kallas aktuarier som symbol. Värdet +3 anger att det automatiska värdet är riskabelt och värdet -3 att det förmodligen är säkert. Användning: Förutsäga riskpoängen efter funktioner med hjälp av regression eller multivariatklassificering. Relaterad forskning: Schlimmer, J.C. (1987). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
UCI-datauppsättning för cykeluthyrning | UCI Bike Rental-datauppsättning som baseras på verkliga data från Capital Bikeshare-företaget som underhåller ett cykeluthyrningsnätverk i Washington DC. Datauppsättningen har en rad för varje timme varje dag 2011 och 2012, totalt 17 379 rader. Utbudet av cykeluthyrning varje timme är från 1 till 977. |
Bill Gates RGB-avbildning | Offentligt tillgänglig bildfil konverterad till CSV-data. Koden för att konvertera bilden finns på sidan Färgkvantisering med hjälp av informationssidan för K-Means-klustringsmodell . |
Blodgivningsdata | En delmängd av data från blodgivardatabasen i Blood Transfusion Service Center i Hsin-Chu City, Taiwan. Donatordata omfattar månaderna sedan den senaste donationen), och frekvens, eller det totala antalet donationer, tid sedan den senaste donationen och mängden blod som donerades. Användning: Målet är att via klassificering förutsäga om givaren donerade blod i mars 2007, där 1 indikerar en donator under målperioden, och 0 en icke-donator. Relaterad forskning: Yeh, I.C., (2008). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018 |
Bröstcancerdata | En av tre cancerrelaterade datamängder som tillhandahålls av Oncology Institute som förekommer ofta i maskininlärningslitteratur. Kombinerar diagnostisk information med funktioner från laboratorieanalys av cirka 300 vävnadsprover. Användning: Klassificera typen av cancer, baserat på 9 attribut, varav vissa är linjära och vissa är kategoriska. Relaterad forskning: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Bröstcancer funktioner | Datamängden innehåller information för 102 000 misstänkta regioner (kandidater) av röntgenbilder, som var och en beskrivs av 117 funktioner. Funktionerna är patentskyddade och deras innebörd avslöjas inte av datamängdsskaparna (Siemens Healthcare). |
Information om bröstcancer | Datamängden innehåller ytterligare information för varje misstänkt region med röntgenbild. Varje exempel innehåller information (till exempel etikett, patient-ID, koordinater för korrigering i förhållande till hela bilden) om motsvarande radnummer i datauppsättningen Bröstcancerfunktioner. Varje patient har ett antal exempel. För patienter som har en cancer är vissa exempel positiva och vissa är negativa. För patienter som inte har cancer är alla exempel negativa. Datamängden har 102 000 exempel. Datamängden är partisk, 0,6 % av punkterna är positiva, resten är negativa. Datamängden gjordes tillgänglig av Siemens Healthcare. |
DELADE CRM-appetencyetiketter | Etiketter från förutsägelseutmaningen för KDD Cup 2009-kundrelationer (orange_small_train_appetency.labels). |
DELADE CRM-omsättningsetiketter | Etiketter från förutsägelseutmaningen för KDD Cup 2009-kundrelationer (orange_small_train_churn.labels). |
DELAD CRM-datauppsättning | Dessa data kommer från förutsägelseutmaningen för KDD Cup 2009-kundrelationer (orange_small_train.data.zip). Datamängden innehåller 50 000 kunder från det franska telekomföretaget Orange. Varje kund har 230 anonymiserade funktioner, varav 190 är numeriska och 40 är kategoriska. Funktionerna är mycket glesa. |
DELADE CRM-etiketter | Etiketter från förutsägelseutmaningen för KDD Cup 2009-kundrelationer (orange_large_train_upselling.labels). |
Regressionsdata för energieffektivitet | En samling simulerade energiprofiler baserade på 12 olika byggnadsformer. Byggnaderna särskiljs av åtta funktioner. Detta inkluderar glasyta, fördelningen av glasytan och orientering. Användning: Använd antingen regression eller klassificering för att förutsäga energieffektivitetsklassificeringen baserat på ett av två verkliga värdesvar. För klassificering med flera klasser avrundas svarsvariabeln till närmaste heltal. Relaterad forskning: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Data om flygförseningar |
Prestandadata för passagerarflygning i tid som hämtats från TranStats-datainsamlingen från U.S. Department of Transportation (On-Time).
Datamängden omfattar tidsperioden april-oktober 2013. Innan du överförde till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt:
|
Prestanda för flyg i tid (raw) | Register över flyg ankomster och avgångar inom USA från oktober 2011. Användning: Förutsäga flygförseningar. Relaterad forskning: Från US Dept. of Transportation https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time. |
Data om skogsbränder | Innehåller väderdata, till exempel temperatur- och luftfuktighetsindex och vindhastighet. Uppgifterna hämtas från ett område i nordöstra Portugal, i kombination med register över skogsbränder. Användning: Detta är en svår regressionsuppgift, där syftet är att förutsäga det brända området med skogsbränder. Relaterad forskning: Cortez, P., & Morais, A. (2008). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science [Cortez och Morais, 2007] P. Cortez och A. Morais. En datautvinningsmetod för att förutsäga skogsbränder med meteorologiska data. I J. Neves, M. F. Santos och J. Machado Eds., Nya trender inom artificiell intelligens, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Finns på: http://www.dsi.uminho.pt/~pcortez/fires.pdf. |
UCI-datauppsättning för tyska kreditkort | Datamängden UCI Statlog (tyska kreditkort) (Statlog+German+Credit+Data) med hjälp av filen german.data. Datauppsättningen klassificerar personer, som beskrivs av en uppsättning attribut, som låg eller hög kreditrisk. Varje exempel representerar en person. Det finns 20 funktioner, både numeriska och kategoriska, och en binär etikett (kreditriskvärdet). Poster med hög kreditrisk har etiketten = 2, poster med låg kreditrisk har etiketten = 1. Kostnaden för att felklassificeras ett lågriskexempel som högt är 1, medan kostnaden för att felklassificeras ett exempel med hög risk som låg är 5. |
IMDB-filmtitlar | Datamängden innehåller information om filmer som har betygsatts i Twitter-tweets: IMDB-film-ID, filmnamn, genre och produktionsår. Det finns 17 000 filmer i datamängden. Datamängden introducerades i tidningen "S. Dooms, T. De Pessemier och L. Martens. MovieTweetings: en filmklassificeringsdatauppsättning som samlats in från Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013." |
Två klassdata i Iris | Detta är kanske den mest kända databasen som finns i mönsterigenkänningslitteraturen. Datamängden är relativt liten och innehåller 50 exempel på var och en av kronbladsmätningarna från tre irissorter. Användning: Förutsäga iris-typen från mätningarna. Relaterad forskning: Fisher, R.A. (1988). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Tweets för film | Datamängden är en utökad version av datauppsättningen Movie Tweetings. Datauppsättningen har 170 000 betyg för filmer, extraherade från välstrukturerade tweets på Twitter. Varje instans representerar en tweet och är en tupplar: användar-ID, IMDB-film-ID, omdöme, tidsstämpel, antal favoriter för den här tweeten och antalet retweets för den här tweeten. Datauppsättningen gjordes tillgänglig av A. Said, S. Dooms, B. Loni och D. Tikk för Recommender Systems Challenge 2014. |
MPG-data för olika bilar | Den här datamängden är en något modifierad version av datamängden som tillhandahålls av StatLib-biblioteket vid Carnegie Mellon University. Datamängden användes i American Statistical Association Exposition från 1983. Data visar bränsleförbrukning för olika bilar i miles per gallon. Den innehåller också information som antalet cylindrar, motorförskjutning, hästkrafter, total vikt och acceleration. Användning: Förutsäga bränsleekonomi baserat på tre diskreta attribut med flera värden och fem kontinuerliga attribut. Relaterad forskning: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Datamängden Pima Indians Diabetes Binary Classification | En delmängd av data från nationalinstitutet för diabetes och matsmältnings- och njursjukdomar. Datamängden filtrerades för att fokusera på kvinnliga patienter med pima-indiskt arv. Uppgifterna omfattar medicinska data som glukos- och insulinnivåer samt livsstilsfaktorer. Användning: Förutsäga om ämnet har diabetes (binär klassificering). Relaterad forskning: Sigillito, V. (1990). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science |
Restaurangens kunddata | En uppsättning metadata om kunder, inklusive demografi och inställningar. Användning: Använd den här datamängden, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system. Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Restaurangens funktionsdata | En uppsättning metadata om restauranger och deras funktioner, till exempel mattyp, matstil och plats. Användning: Använd den här datamängden, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system. Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Restaurangbetyg | Innehåller omdömen från användare till restauranger i en skala från 0 till 2. Användning: Använd den här datamängden, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system. Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Steel Annealing datauppsättning för flera klasser | Den här datamängden innehåller en serie poster från försök med utglödning av stål. Den innehåller de fysiska attributen (bredd, tjocklek, typ (spole, plåt osv.) av de resulterande ståltyperna. Användning: Förutsäga något av två numeriska klassattribut, hårdhet eller styrka. Du kan också analysera korrelationer mellan attribut. Stålkvaliteter följer en fast standard som definieras av SAE och andra organisationer. Du letar efter ett specifikt "betyg" (klassvariabeln) och vill förstå de värden som behövs. Relaterad forskning: Sterling, D. & Buntine, W. (NA). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science En användbar guide till stål kvaliteter finns här: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf |
Teleskopdata | Register över gammapartiklar med hög energi spricker tillsammans med bakgrundsbrus, båda simulerade med hjälp av en Monte Carlo-process. Avsikten med simuleringen var att förbättra noggrannheten hos markbaserade atmosfäriska Cherenkov gammateleskop. Detta görs genom att använda statistiska metoder för att skilja mellan den önskade signalen (Cherenkov strålning duschar) och bakgrundsbrus (hadroniska duschar initieras av kosmiska strålar i den övre atmosfären). Data har förbehandlats för att skapa ett långsträckt kluster med den långa axeln riktad mot kameracentret. Egenskaperna för den här ellipsen (kallas ofta Hillas-parametrar) är bland de bildparametrar som kan användas för diskriminering. Användning: Förutsäga om bilden av en dusch representerar signal- eller bakgrundsbrus. Anmärkningar: Enkel klassificeringsnoggrannhet är inte meningsfull för dessa data, eftersom klassificering av en bakgrundshändelse som signal är sämre än att klassificera en signalhändelse som bakgrund. För jämförelse av olika klassificerare bör ROC-grafen användas. Sannolikheten att acceptera en bakgrundshändelse som signal måste ligga under något av följande tröskelvärden: 0,01, 0,02, 0,05, 0,1 eller 0,2. Observera också att antalet bakgrundshändelser (h, för hadroniska duschar) är underskattat. I verkliga mätningar representerar klassen h eller noise majoriteten av händelserna. Relaterad forskning: Bock, R.K. (1995). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information |
Väderdatauppsättning |
Landbaserade väderobservationer varje timme från NOAA (sammanfogade data från 201304 till 201310).
Väderdata omfattar observationer från flygplatsens väderstationer som täcker tidsperioden april-oktober 2013. Innan du överförde till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt:
|
Wikipedia SP 500-datauppsättning |
Data härleds från Wikipedia (https://www.wikipedia.org/) baserat på artiklar från varje S&P 500-företag som lagras som XML-data.
Innan du överförde till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt:
|
direct_marketing.csv | Datamängden innehåller kunddata och indikationer om deras svar på en direktutskickskampanj. Varje rad representerar en kund. Datamängden innehåller nio funktioner om användardemografi och tidigare beteende samt tre etikettkolumner (besök, konvertering och utgifter). Visit är en binär kolumn som anger att en kund har besökt efter marknadsföringskampanjen. Konvertering anger att en kund har köpt något. Utgifter är det belopp som spenderades. Datauppsättningen gjordes tillgänglig av Kevin Hillstrom för MineThatData e-postanalys och datautvinningsutmaning. |
lyrl2004_tokens_test.csv | Funktioner i testexempel i nyhetsdatauppsättningen RCV1-V2 Reuters. Datamängden har 781 000 nyhetsartiklar tillsammans med sina ID:n (den första kolumnen i datamängden). Varje artikel är tokeniserad, stopworded och stemmed. Datamängden gjordes tillgänglig av David. D. Lewis. |
lyrl2004_tokens_train.csv | Funktioner i träningsexempel i nyhetsdatauppsättningen RCV1-V2 Reuters. Datamängden har 23 000 nyhetsartiklar tillsammans med sina ID:n (den första kolumnen i datamängden). Varje artikel är tokeniserad, stopworded och stemmed. Datamängden gjordes tillgänglig av David. D. Lewis. |
network_intrusion_detection.csv |
Datamängd från KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html). Datamängden laddades ned och lagrades i Azure Blob Storage (network_intrusion_detection.csv) och innehåller både tränings- och testningsdatauppsättningar. Träningsdatauppsättningen har cirka 126 000 rader och 43 kolumner, inklusive etiketterna. Tre kolumner ingår i etikettinformationen och 40 kolumner, som består av numeriska och sträng-/kategoriska funktioner, är tillgängliga för träning av modellen. Testdata har cirka 22,5 000 testexempel med samma 43 kolumner som i träningsdata. |
rcv1-v2.topics.qrels.csv | Ämnestilldelningar för nyhetsartiklar i nyhetsdatauppsättningen RCV1-V2 Reuters. En nyhetsartikel kan tilldelas till flera ämnen. Formatet för varje rad är "<ämnesnamn><dokument-ID> 1". Datamängden innehåller 2,6 miljoner ämnestilldelningar. Datamängden gjordes tillgänglig av David. D. Lewis. |
student_performance.txt | Dessa data kommer från KDD Cup 2010 Student performance evaluation challenge (utvärdering av elevprestanda). De data som används är Algebra_2008_2009 träningsuppsättningen (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Utmaningsdatauppsättning från KDD Cup 2010 Educational Data Mining Challenge. Hitta den på downloads.jsp. Datamängden laddades ned och lagrades i Azure Blob Storage (student_performance.txt) och innehåller loggfiler från ett elevhandledaresystem. De angivna funktionerna omfattar problem-ID och dess korta beskrivning, elev-ID, tidsstämpel och hur många försök eleven gjorde innan han eller hon löste problemet på rätt sätt. Den ursprungliga datamängden har 8,9 miljoner poster. Den här datamängden har tagits ned till de första 100 000 raderna. Datauppsättningen har 23 flikavgränsade kolumner av olika typer: numeriska, kategoriska och tidsstämpel. |