Sdílet prostřednictvím


Použití ukázkových datových sad v nástroji Machine Learning Studio (classic)

PLATÍ PRO: Platí pro. Machine Learning Studio (Classic) Nevztahuje se na.Azure Machine Learning

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Při vytváření nového pracovního prostoru v nástroji Machine Learning Studio (classic) se ve výchozím nastavení zahrne řada ukázkových datových sad a experimentů. Mnohé z těchto ukázkových datových sad používají ukázkové modely v galerii Azure AI. Další jsou zahrnuté jako příklady různých typů dat, které se obvykle používají ve strojovém učení.

Některé z těchto datových sad jsou k dispozici ve službě Azure Blob Storage. Pro tyto datové sady poskytuje následující tabulka přímý odkaz. Tyto datové sady můžete použít ve svých experimentech pomocí modulu Importovat data .

Zbývající z těchto ukázkových datových sad jsou k dispozici ve vašem pracovním prostoru v části Uložené datové sady. Najdete ho na paletě modulů nalevo od plátna experimentu v nástroji Machine Learning Studio (classic). Libovolnou z těchto datových sad můžete použít ve vlastním experimentu přetažením na plátno experimentu.

Datové sady

Název datové sady Popis datové sady
Datová sada pro sčítání lidu dospělých v binární klasifikaci příjmů Podmnožina databáze sčítání lidu z roku 1994 s použitím pracovních dospělých ve věku 16 let s upraveným indexem příjmů > 100.

Použití: Klasifikovat lidi pomocí demografických údajů, abyste mohli předpovědět, jestli osoba získá více než 50 tisíc za rok.

Související výzkum: Kohavi, R., Becker, B., (1996). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Datová sada kódů letiště Americké letištní kódy.

Tato datová sada obsahuje jeden řádek pro každé letiště USA, kde najdete id a název letiště spolu s místem a státem.
Automobile price data (Raw) Informace o automobilech podle značky a modelu, včetně ceny, funkcí, jako je počet válců a MPG, a také skóre rizika pojištění.

Rizikové skóre je zpočátku spojeno s automatickou cenou. Následně se upraví pro skutečné riziko v procesu, který se označuje jako symboly. Hodnota +3 označuje, že auto je rizikové a hodnota -3, že je pravděpodobně bezpečná.

Použití: Predikce skóre rizika podle funkcí pomocí regrese nebo vícevariátní klasifikace

Související výzkum: Schlimmer, J.C. (1987). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Datová sada UCI pronájem kol Datová sada UCI Bike Rental, která je založená na skutečných datech společnosti Capital Bikeshare, která udržuje síť půjčování kol ve Washington DC.

Datová sada obsahuje jeden řádek pro každou hodinu každého dne v roce 2011 a 2012 pro celkem 17 379 řádků. Rozsah hodinových půjčování kol je od 1 do 977.
Bill Gates RGB Image Veřejně dostupný soubor obrázku převedený na data CSV.

Kód pro převod obrázku je k dispozici v kvantování barev pomocí stránky podrobností modelu clusteringu K-Means.
Údaje o darování krve Podmnožina dat z databáze dárců krve v centru služby Krevní transfuze města Hsin-Chu, Taiwan.

Údaje o dárcích zahrnují měsíce od posledního daru) a četnost nebo celkový počet darů, čas od posledního daru a množství darovaných krve.

Použití: Cílem je předpovědět prostřednictvím klasifikace, zda dárci darovali krev v březnu 2007, kde 1 označuje dárce během cílového období a 0 ne dárců.

Související výzkum: Yeh, I.C., (2008). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang a Ting, Tao-Ming, "Zjišťování znalostí v modelu RFM pomocí Bernoulli sekvence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Data o rakovině prsu Jedna ze tří datových sad souvisejících s rakovinou poskytovaná onkologickým institutem, která se často objevuje v literaturě strojového učení. Kombinuje diagnostické informace s funkcemi z laboratorní analýzy asi 300 vzorků tkání.

Použití: Klasifikujte typ rakoviny na základě 9 atributů, z nichž některé jsou lineární a některé jsou kategorické.

Související výzkum: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Funkce rakoviny prsu Datová sada obsahuje informace pro podezřelé oblasti 102K (kandidáty) rentgenových obrázků, které jsou popsány 117 funkcemi. Funkce jsou proprietární a jejich význam není odhalen tvůrci datových sad (Siemens Healthcare).
Informace o rakovině prsu Datová sada obsahuje další informace pro každou podezřelou oblast rentgenového obrázku. Každý příklad poskytuje informace (například popisek, ID pacienta, souřadnice opravy vzhledem k celému obrázku) o odpovídajícím čísle řádku v datové sadě Funkce rakoviny prsu. Každý pacient má řadu příkladů. U pacientů, kteří mají rakovinu, jsou některé příklady pozitivní a některé jsou negativní. U pacientů, kteří nemají rakovinu, jsou všechny příklady negativní. Datová sada obsahuje 102 tisíc příkladů. Datová sada je zkreslená, 0,6 % bodů je kladné, zbytek je záporný. Datová sada byla zpřístupněna společností Siemens Healthcare.
Sdílené popisky appetency CRM Popisky z výzvy predikce vztahů se zákazníky KDD Cup 2009 (orange_small_train_appetency.labels).
Sdílené popisky změn CRM Popisky z výzvy predikce vztahů zákazníka KDD Cup 2009 (orange_small_train_churn.labels).
Sdílená datová sada CRM Tato data pocházejí z výzvy predikce vztahů zákazníka KDD Cup 2009 (orange_small_train.data.zip).

Datová sada obsahuje 50 tisíc zákazníků z francouzské telekomunikační společnosti Orange. Každý zákazník má 230 anonymizovaných funkcí, z nichž 190 jsou číselné a 40 jsou kategorické. Funkce jsou velmi řídké.
Sdílené popisky pro upselling CRM Popisky z výzvy predikce vztahů se zákazníky KDD Cup 2009 (orange_large_train_upselling.labels).
Data regrese energetické účinnosti Kolekce simulovaných energetických profilů založených na 12 různých tvarech budovy. Budovy jsou odlišeny osmi funkcemi. To zahrnuje oblast zasklení, distribuci oblasti glazování a orientaci.

Použití: Pomocí regrese nebo klasifikace můžete předpovědět hodnocení energetické účinnosti na základě jedné ze dvou odpovědí skutečných hodnot. U klasifikace s více třídami je proměnná odpovědi zaokrouhlená na nejbližší celé číslo.

Související výzkum: Xifara, A. &Tsanas, A. (2012). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Data zpoždění letů Údaje o výkonu cestujících na čase převzaté ze sběru dat TranStats ministerstva dopravy USA (on-Time).

Datová sada pokrývá časové období duben–říjen 2013. Před nahráním do nástroje Machine Learning Studio (Classic) se datová sada zpracovala takto:
  • Datová sada byla filtrována tak, aby pokrývala pouze 70 nejrušnějších letišť v kontinentální USA.
  • Zrušené lety byly označeny jako zpožděné o více než 15 minut.
  • Odpojené lety byly odfiltrovány.
  • Byly vybrány následující sloupce: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Výkon letu v čase (Raw) Záznamy příletů a odletů letadla v USA od října 2011.

Použití: Předpověď zpoždění letů

Související výzkum: Od amerického oddělení dopravy https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Data požárů v doménové struktuře Obsahuje data o počasí, jako jsou indexy teploty a vlhkosti a rychlost větru. Údaje pocházejí z oblasti severovýchodního Portugalska v kombinaci se záznamy lesních požárů.

Použití: Jedná se o obtížnou regresní úlohu, kde je cílem předpovědět spálenou oblast lesních požárů.

Související výzkum: Cortez, P., & Morais, A. (2008). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science

[Cortez and Morais, 2007] P. Cortez a A. Morais. Přístup k dolování dat k předpovídání požárů lesa pomocí meteorologických dat J. Neves, M. F. Santos a J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. K dispozici na adrese: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Datová sada UCI pro německou platební kartu Datová sada UCI Statlog (německá platební karta) (Statlog+German+Credit+Data) pomocí souboru german.data.

Datová sada klasifikuje lidi, které jsou popsány sadou atributů, jako nízká nebo vysoká úvěrové rizika. Každý příklad představuje osobu. Existuje 20 funkcí, číselných i kategorických a binárního popisku (hodnota úvěrového rizika). Položky s vysokým úvěrovým rizikem mají popisek = 2, položky nízkého úvěrového rizika mají popisek = 1. Náklady na špatně klasifikující příklad s nízkým rizikem jsou 1, zatímco náklady na nesprávnou klasifikaci příkladu s vysokým rizikem jsou 5.
Názvy filmů IMDB Datová sada obsahuje informace o filmech, které byly hodnoceny na Twitteru tweety: ID filmu IMDB, název filmu, žánr a produkční rok. V datové sadě je 17 tisíc filmů. Datová sada byla představena v dokumentu "S. Dooms, T. De Pessemier a L. Martens. MovieTweetings: datová sada hodnocení filmů shromážděná z Twitteru. Workshop o Crowdsourcingu a human computation for Recommender Systems, CrowdRec at RecSys 2013."
Data dvou tříd Iris To je možná nejznámější databáze, která se nachází v literaturě pro rozpoznávání vzorů. Datová sada je relativně malá, která obsahuje 50 příkladů každé okvětní měření ze tří odrůd duhovky.

Použití: Predikce typu duhovky z měření

Související výzkum: Fisher, R.A. (1988). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Filmové tweety Datová sada je rozšířená verze datové sady Video Tweetings. Datová sada má 170 tisíc hodnocení filmů extrahovaných z dobře strukturovaných tweetů na Twitteru. Každá instance představuje tweet a je řazenou kolekcí členů: ID uživatele, ID filmu IMDB, hodnocení, časové razítko, počet oblíbených položek pro tento tweet a počet retweetů tohoto tweetu. Datovou sadu zpřístupnil A. Said, S. Dooms, B. Loni a D. Tikk for Recommender Systems Challenge 2014.
Data MPG pro různé automobily Tato datová sada je mírně upravená verze datové sady, kterou poskytuje knihovna StatLib univerzity Carnegieho Mellona. Datová sada byla použita v expozici americké statistické asociace 1983.

Data uvádějí spotřebu paliva pro různé automobily v mílích na galon. Obsahuje také informace, jako je počet válců, posunutí motoru, výkon koně, celková hmotnost a zrychlení.

Použití: Předpověď úspory paliva na základě tří diskrétních atributů s více hodnotami a pěti spojitých atributů.

Související výzkum: StatLib, Carnegie Mellon University, (1993). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science
Pima Indians Diabetes Binary Classification dataset Podmnožina dat z databáze National Institute of Diabetes and Trávicí a Ledvinové nemoci. Datová sada byla filtrována tak, aby se zaměřila na ženské pacienty pima indického dědictví. Data zahrnují zdravotní údaje, jako je hladina glukózy a inzulínu, a také faktory životního stylu.

Použití: Predikce, zda subjekt má diabetes (binární klasifikace).

Související výzkum: Sigillito, V. (1990). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI ". Irvine, CA: University of California, School of Information and Computer Science
Zákaznická data restaurace Sada metadat o zákaznících, včetně demografických údajů a preferencí.

Použití: Tuto datovou sadu použijte v kombinaci s ostatními dvěma datovými sadami restaurace k trénování a testování doporučovacího systému.

Související výzkum: Bache, K. a Lichman, M. (2013). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science.
Funkční data restaurace Sada metadat o restauracích a jejich funkcích, jako je typ jídla, styl stravování a poloha.

Použití: Tuto datovou sadu použijte v kombinaci s ostatními dvěma datovými sadami restaurace k trénování a testování doporučovacího systému.

Související výzkum: Bache, K. a Lichman, M. (2013). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science.
Hodnocení restaurací Obsahuje hodnocení od uživatelů do restaurací v měřítku od 0 do 2.

Použití: Tuto datovou sadu použijte v kombinaci s ostatními dvěma datovými sadami restaurace k trénování a testování doporučovacího systému.

Související výzkum: Bache, K. a Lichman, M. (2013). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science.
Ocelová žíhání datová sada s více třídami Tato datová sada obsahuje řaduzáznamůch Obsahuje fyzické atributy (šířku, tloušťku, typ (cívku, list atd.) výsledných typů oceli.

Použití: Predikce kteréhokoli ze dvou atributů číselné třídy; tvrdost nebo síla. Můžete také analyzovat korelace mezi atributy.

Třídy oceli se řídí nastaveným standardem definovaným SAE a dalšími organizacemi. Hledáte konkrétní známku (proměnnou třídy) a chcete porozumět požadovaným hodnotám.

Související výzkum: Sterling, D. & Buntine, W. (NA). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information and Computer Science

Užitečné vodítko ke známkám oceli najdete tady: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Data z teleskopu Záznam vysokoenergetických gama shluků částic spolu s šumem na pozadí, oba simulované pomocí procesu Monte Carlo.

Záměrem simulace bylo zlepšit přesnost pozemního atmosférického gama teleskopů Cherenkov. To se provádí pomocí statistických metod k rozlišení mezi požadovaným signálem (Cherenkov radiací) a šumem na pozadí (hadronické sprchy iniciované vesmírnými paprsky v horní atmosféře).

Data byla předem zpracována tak, aby se vytvořil prodloužený cluster s dlouhou osou, je orientovaný na střed kamery. Charakteristiky těchto tří teček (často označované jako parametry Hillas) jsou mezi parametry obrazu, které lze použít k diskriminaci.

Použití: Předpovídejte, jestli obraz sprchy představuje signál nebo šum na pozadí.

Poznámky: Jednoduchá přesnost klasifikace není pro tato data smysluplná, protože klasifikace události na pozadí jako signálu je horší než klasifikace události signálu jako pozadí. Pro porovnání různých klasifikátorů by se měl použít graf ROC. Pravděpodobnost přijetí události na pozadí jako signál musí být nižší než jedna z následujících prahových hodnot: 0,01, 0,02, 0,05, 0,1 nebo 0,2.

Všimněte si také, že počet událostí na pozadí (h, pro hadronické sprchy) je podceňován. Ve skutečných měřeních představuje třída h nebo šum většinu událostí.

Související výzkum: Bock, R.K. (1995). Úložiště strojového https://archive.ics.uci.edu/mlučení UCI . Irvine, CA: University of California, School of Information
Datová sada počasí Hodinová pozorování počasí na základě země z NOAA (sloučená data z 201304 do roku 201310).

Údaje o počasí zahrnují pozorování z meteorologické stanice letiště, která pokrývají časové období duben-říjen 2013. Před nahráním do nástroje Machine Learning Studio (Classic) se datová sada zpracovala takto:
  • ID meteorologické stanice byly mapovány na odpovídající ID letiště
  • Meteorologické stanice, které nejsou přidruženy k 70 nejrušnějším letištím, byly vyfiltrovány
  • Sloupec Datum byl rozdělen do samostatných sloupců Year, Month a Day.
  • Byly vybrány následující sloupce: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Wikipedie SP 500 Dataset Data se odvozují z Wikipedie (https://www.wikipedia.org/) na základě článků každé společnosti S&P 500 uložené jako data XML.

Před nahráním do nástroje Machine Learning Studio (Classic) se datová sada zpracovala takto:
  • Extrahování textového obsahu pro každou konkrétní společnost
  • Odebrání formátování wikiwebu
  • Odebrání nealnumerických znaků
  • Převod veškerého textu na malá písmena
  • Byly přidány známé kategorie společnosti.

Všimněte si, že u některých společností se nepodařilo najít článek, takže počet záznamů je menší než 500.
direct_marketing.csv Datová sada obsahuje zákaznická data a informace o jejich reakci na kampaň přímého zasílání adresátů. Každý řádek představuje zákazníka. Datová sada obsahuje devět funkcí o demografických datech uživatelů a chování v minulosti a tři sloupce popisků (návštěva, převod a útrata). Visit je binární sloupec, který označuje, že zákazník navštívil po marketingové kampani. Převod označuje zákazníka, který něco zakoupil. Útrata je částka, která byla vynaložena. Datovou sadu zpřístupnil Kevin Hillstrom pro MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csv Funkce testovacích příkladů v datové sadě zpráv RCV1-V2 RcV1-V2 Datová sada obsahuje 781K příspěvků spolu s JEJICH ID (první sloupec datové sady). Každý článek je tokenizovaný, stopworded a stemmed. Datovou sadu zpřístupnil David. D. Lewis.
lyrl2004_tokens_train.csv Funkce trénovacích příkladů v datové sadě zpráv RCV1-V2 RcV1-V2 Datová sada obsahuje 23K novinových článků spolu s JEJICH ID (první sloupec datové sady). Každý článek je tokenizovaný, stopworded a stemmed. Datovou sadu zpřístupnil David. D. Lewis.
network_intrusion_detection.csv
Datová sada z KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

Datová sada byla stažena a uložena ve službě Azure Blob Storage (network_intrusion_detection.csv) a zahrnuje jak trénovací, tak testovací datové sady. Trénovací datová sada obsahuje přibližně 126 tisíc řádků a 43 sloupců včetně popisků. Tři sloupce jsou součástí informací o popisku a 40 sloupců, které se skládají z číselných a řetězcových/kategorických funkcí, jsou k dispozici pro trénování modelu. Testovací data mají přibližně 22,5K testovacích příkladů se stejnými 43 sloupci jako v trénovacích datech.
rcv1-v2.topics.qrels.csv Přiřazení témat k článkům zpráv v datové sadě zpráv RCV1-V2 Zprávy. Článek o novinkách lze přiřadit k několika tématům. Formát každého řádku je "<název><dokumentu tématu s ID> 1". Datová sada obsahuje přiřazení témat 2.6M. Datovou sadu zpřístupnil David. D. Lewis.
student_performance.txt Tato data pocházejí z výzvy hodnocení výkonnosti studentů KDD Cup 2010 (hodnocení výkonnosti studentů). Použitá data jsou trénovací sada Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Challenge dataset from KDD Cup 2010 Educational Data Mining Challenge. Najdete ho na downloads.jsp.

Datová sada byla stažena a uložena ve službě Azure Blob Storage (student_performance.txt) a obsahuje soubory protokolů ze systému pro doučování studentů. Součástí zadaných funkcí je ID problému a jeho stručný popis, ID studenta, časové razítko a počet pokusů, které student provedl před vyřešením problému správným způsobem. Původní datová sada obsahuje záznamy 8,9M; tato datová sada byla mimo vzorkování na prvních 100 tisíc řádků. Datová sada obsahuje 23 sloupců oddělených tabulátory různých typů: číselné, kategorické a časové razítko.

Další kroky