Udostępnij za pośrednictwem


Korzystanie z przykładowych zestawów danych w usłudze Machine Learning Studio (wersja klasyczna)

DOTYCZY: Dotyczy.Machine Learning Studio (wersja klasyczna) Nie dotyczy.Azure Machine Learning

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Podczas tworzenia nowego obszaru roboczego w usłudze Machine Learning Studio (wersja klasyczna) dołączana jest domyślnie wiele przykładowych zestawów danych i eksperymentów. Wiele z tych przykładowych zestawów danych jest używanych przez przykładowe modele w galerii sztucznej inteligencji platformy Azure. Inne są uwzględniane jako przykłady różnych typów danych zwykle używanych w uczeniu maszynowym.

Niektóre z tych zestawów danych są dostępne w usłudze Azure Blob Storage. W przypadku tych zestawów danych poniższa tabela zawiera bezpośredni link. Te zestawy danych można używać w eksperymentach przy użyciu modułu Import Data (Importowanie danych).

Pozostałe przykładowe zestawy danych są dostępne w obszarze roboczym w obszarze Zapisane zestawy danych. Tę pozycję można znaleźć na palecie modułów po lewej stronie kanwy eksperymentu w usłudze Machine Learning Studio (wersja klasyczna). Możesz użyć dowolnego z tych zestawów danych we własnym eksperymencie, przeciągając go na kanwę eksperymentu.

Zestawy danych

Nazwa zestawu danych Opis zestawu danych
Zestaw danych klasyfikacji binarnej o dochodach dla dorosłych Podzbiór bazy danych spisu z 1994 r., używając pracujących dorosłych w wieku powyżej 16 roku życia z skorygowanym indeksem dochodów > 100.

Użycie: klasyfikuj osoby używające danych demograficznych, aby przewidzieć, czy dana osoba zarabia ponad 50 tys. rocznie.

Powiązane badania: Kohavi, R., Becker, B., (1996). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science
Zestaw danych kodów lotniska Kody portów lotniczych USA.

Ten zestaw danych zawiera jeden wiersz dla każdego lotniska w USA, podając identyfikator lotniska i nazwę wraz z lokalizacją miasta i stanu.
Dane dotyczące cen samochodów (nieprzetworzone) Informacje o samochodach według marki i modelu, w tym cena, cechy, takie jak liczba cylindrów i MPG, a także ocena ryzyka ubezpieczeniowego.

Ocena ryzyka jest początkowo skojarzona z ceną automatyczną. Następnie jest dostosowywany pod kątem rzeczywistego ryzyka w procesie znanym do działania jako symboli. Wartość +3 wskazuje, że auto jest ryzykowne i wartość -3, że jest prawdopodobnie bezpieczna.

Użycie: przewidywanie oceny ryzyka według funkcji przy użyciu regresji lub klasyfikacji wielowariancji.

Powiązane badania: Schlimmer, J.C. (1987). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science
Zestaw danych uci wypożyczania rowerów Zestaw danych UCI Bike Rental oparty na rzeczywistych danych firmy Capital Bikeshare, która utrzymuje sieć wypożyczania rowerów w Waszyngtonie.

Zestaw danych zawiera jeden wiersz dla każdej godziny każdego dnia w 2011 i 2012 r. dla łącznie 17 379 wierszy. Zakres godzinowych wypożyczeń rowerów wynosi od 1 do 977.
Obraz RGB Bill Gates Publicznie dostępny plik obrazu przekonwertowany na dane CSV.

Kod konwersji obrazu jest udostępniany w kwantyzacji Kolor przy użyciu strony szczegółów modelu klastrowania K-Średnich.
Dane dotyczące dawstwa krwi Podzestaw danych z bazy danych dawcy krwi Centrum Usługi Transfuzji Krwi Hsin-Chu City, Tajwan.

Dane dawcy obejmują miesiące od ostatniej darowizny) i częstotliwość lub łączną liczbę darowizn, czas od ostatniej darowizny i ilość krwi przekazanej.

Użycie: Celem jest przewidywanie poprzez klasyfikację, czy dawca przekazał krew w marcu 2007 r., gdzie 1 wskazuje dawcę w okresie docelowym, a 0 nie-dawcy.

Powiązane badania: Yeh, I.C., (2008). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang i Ting, Tao-Ming, "Odkrycie wiedzy na temat modelu RFM przy użyciu sekwencji Bernoulli, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Dane dotyczące raka piersi Jeden z trzech zestawów danych związanych z rakiem dostarczonych przez Instytut Onkologii, który pojawia się często w literaturze uczenia maszynowego. Łączy informacje diagnostyczne z cechami z analizy laboratoryjnej około 300 próbek tkanek.

Użycie: Klasyfikuj typ raka, na podstawie 9 atrybutów, z których niektóre są liniowe, a niektóre są podzielone na kategorie.

Powiązane badania: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science
Funkcje raka piersi Zestaw danych zawiera informacje o podejrzanych regionach 102K (kandydatów) obrazów rentgenowskich, z których każdy został opisany przez 117 funkcji. Funkcje są własnością i ich znaczenie nie jest ujawniane przez twórców zestawów danych (Siemens Healthcare).
Informacje o raku piersi Zestaw danych zawiera dodatkowe informacje dla każdego podejrzanego regionu obrazu rentgenowskiego. Każdy przykład zawiera informacje (na przykład etykieta, identyfikator pacjenta, współrzędne poprawki względem całego obrazu) dotyczące odpowiedniego numeru wiersza w zestawie danych funkcji raka piersi. Każdy pacjent ma kilka przykładów. W przypadku pacjentów z rakiem niektóre przykłady są pozytywne, a niektóre są negatywne. Dla pacjentów, którzy nie mają raka, wszystkie przykłady są negatywne. Zestaw danych zawiera przykłady 102K. Zestaw danych jest stronniczy, 0,6% punktów jest dodatnich, pozostałe są ujemne. Zestaw danych został udostępniony przez Firmę Siemens Healthcare.
Udostępnione etykiety aplikacji CRM Etykiety z wyzwania przewidywania relacji z klientem KDD Cup 2009 (orange_small_train_appetency.labels).
Udostępnione etykiety zmian crm Etykiety z wyzwania przewidywania relacji z klientem KDD Cup 2009 (orange_small_train_churn.labels).
Udostępniony zestaw danych CRM Te dane pochodzą z wyzwania przewidywania relacji klienta KDD Cup 2009 (orange_small_train.data.zip).

Zestaw danych zawiera 50 tys. klientów firmy French Telecom Orange. Każdy klient ma 230 anonimowych funkcji, z których 190 jest liczbowych i 40 są podzielone na kategorie. Funkcje są bardzo rozrzedłe.
Udostępnione etykiety sprzedaży dodatkowej crm Etykiety z wyzwania przewidywania relacji klienta w programie KDD Cup 2009 (orange_large_train_upselling.labels).
Dane regresji wydajności energetycznej Kolekcja symulowanych profilów energetycznych oparta na 12 różnych kształtach budynku. Budynki różnią się ośmioma cechami. Obejmuje to powierzchnię glazury, rozkład powierzchni glazury i orientację.

Użycie: użyj regresji lub klasyfikacji, aby przewidzieć ocenę efektywności energetycznej na podstawie jednej z dwóch rzeczywistych odpowiedzi. W przypadku klasyfikacji wieloklasowej zmienna odpowiedzi jest zaokrąglona do najbliższej liczby całkowitej.

Powiązane badania: Xifara, A. & Tsanas, A. (2012). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science
Dane opóźnień lotów Dane dotyczące wydajności lotów pasażerskich pobrane z zbierania danych TranStats departamentu transportu USA (na czas).

Zestaw danych obejmuje okres od kwietnia do października 2013 r. Przed przekazaniem do usługi Machine Learning Studio (wersja klasyczna) zestaw danych został przetworzony w następujący sposób:
  • Zestaw danych został przefiltrowany tak, aby obejmował tylko 70 najbardziej ruchliwych lotnisk w kontynentalnych Stanach Zjednoczonych
  • Anulowane loty zostały oznaczone jako opóźnione o ponad 15 minut
  • Odfiltrowane loty przekierowane
  • Wybrano następujące kolumny: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Wydajność w czasie lotu (nieprzetworzone) Zapisy lotów samolotów i odlotów w Stany Zjednoczone od października 2011 r.

Użycie: przewidywanie opóźnień lotów.

Powiązane badania: Od amerykańskiego działu transportu https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Dane pożarów lasu Zawiera dane pogodowe, takie jak indeksy temperatury i wilgotności oraz prędkość wiatru. Dane pochodzą z obszaru północno-wschodniej Portugalii w połączeniu z zapisami pożarów lasów.

Użycie: Jest to trudne zadanie regresji, w którym celem jest przewidywanie spalonego obszaru pożarów lasów.

Powiązane badania: Cortez, P., & Morais, A. (2008). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science

[Cortez i Morais, 2007] P. Cortez i A. Morais. Podejście do wyszukiwania danych w celu przewidywania pożarów lasów przy użyciu danych meteorologicznych. W J. Neves, M. F. Santos i J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portugal Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Dostępne pod adresem: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Zestaw danych uci niemieckiej karty kredytowej Zestaw danych UCI Statlog (niemiecka karta kredytowa) (Statlog+German+Credit+Data) przy użyciu pliku german.data.

Zestaw danych klasyfikuje osoby, opisane przez zestaw atrybutów, jako niskie lub wysokie ryzyko kredytowe. Każdy przykład reprezentuje osobę. Istnieje 20 cech, zarówno liczbowych, jak i kategorialnych oraz etykiety binarnej (wartość ryzyka kredytowego). Wpisy wysokiego ryzyka kredytowego mają etykietę = 2, wpisy niskiego ryzyka kredytowego mają etykietę = 1. Koszt błędnego sklasyfikowania przykładu niskiego ryzyka jako wysokiego wynosi 1, natomiast koszt błędnej klasyfikacji przykładu wysokiego ryzyka wynosi 5.
Tytuły filmów IMDB Zestaw danych zawiera informacje o filmach, które zostały ocenione w tweetach twitterowych: IDENTYFIKATOR filmu IMDB, nazwa filmu, gatunek i rok produkcji. Zestaw danych zawiera 17 000 filmów. Zestaw danych został wprowadzony w dokumencie "S. Dooms, T. De Pessemier i L. Martens. MovieTweetings: zestaw danych oceny filmu zebrany z Serwisu Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013".
Iris dwa dane klasy Jest to być może najbardziej znana baza danych, która znajduje się w literaturze rozpoznawania wzorców. Zestaw danych jest stosunkowo mały, zawierający 50 przykładów każdego z pomiarów płatków z trzech odmian irysów.

Użycie: przewidywanie typu irysów na podstawie pomiarów.

Powiązane badania: Fisher, R.A. (1988). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science
Tweety filmów Zestaw danych to rozszerzona wersja zestawu danych Movie Tweetings. Zestaw danych ma 170 000 ocen dla filmów, wyodrębnionych z dobrze ustrukturyzowanych tweetów na Twitterze. Każde wystąpienie reprezentuje tweet i jest krotką: identyfikator użytkownika, identyfikator filmu IMDB, ocena, sygnatura czasowa, liczba ulubionych dla tego tweetu i liczba ponownych prób tego tweetu. Zestaw danych został udostępniony przez A. Said, S. Dooms, B. Loni i D. Tikk for Recommender Systems Challenge 2014.
Dane MPG dla różnych samochodów Ten zestaw danych jest nieco zmodyfikowaną wersją zestawu danych udostępnioną przez bibliotekę StatLib uniwersytetu Carnegie Mellon University. Zestaw danych został użyty w 1983 roku w amerykańskiej ekspozycji Stowarzyszenia Statystycznego.

Dane wymieniają zużycie paliwa dla różnych samochodów w milach na galon. Zawiera również informacje, takie jak liczba cylindrów, przemieszczeń silnika, koni mechanicznych, łączna waga i przyspieszenie.

Użycie: przewidywanie zużycia paliwa na podstawie trzech wielowartościowych atrybutów dyskretnych i pięciu atrybutów ciągłych.

Powiązane badania: StatLib, Carnegie Mellon University, (1993). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science
Zestaw danych klasyfikacji binarnej Pima Indians Diabetes Podzestaw danych z Krajowego Instytutu Cukrzycy i Chorób Trawiennego i Nerek bazy danych. Zestaw danych został przefiltrowany, aby skupić się na kobietach pacjentów z indyjskim dziedzictwem Pima. Dane obejmują dane medyczne, takie jak poziom glukozy i insuliny, a także czynniki stylu życia.

Użycie: przewidywanie, czy podmiot ma cukrzycę (klasyfikację binarną).

Powiązane badania: Sigillito, V. (1990). REPOZYTORIum https://archive.ics.uci.edu/mlUCI Machine Learning ". Irvine, CA: University of California, School of Information and Computer Science
Dane klienta restauracji Zestaw metadanych dotyczących klientów, w tym dane demograficzne i preferencje.

Użycie: użyj tego zestawu danych, w połączeniu z dwoma innymi zestawami danych restauracji, aby wytrenować i przetestować system rekomendacji.

Powiązane badania: Bache, K. i Lichman, M. (2013). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science.
Dane cech restauracji Zestaw metadanych dotyczących restauracji i ich funkcji, takich jak typ żywności, styl jadalni i lokalizacja.

Użycie: użyj tego zestawu danych, w połączeniu z dwoma innymi zestawami danych restauracji, aby wytrenować i przetestować system rekomendacji.

Powiązane badania: Bache, K. i Lichman, M. (2013). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science.
Oceny restauracji Zawiera oceny podane przez użytkowników do restauracji w skali od 0 do 2.

Użycie: użyj tego zestawu danych, w połączeniu z dwoma innymi zestawami danych restauracji, aby wytrenować i przetestować system rekomendacji.

Powiązane badania: Bache, K. i Lichman, M. (2013). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science.
Steel Annealing wieloklasowy zestaw danych Ten zestaw danych zawiera serię rekordów z prób wyniesienia stali. Zawiera on atrybuty fizyczne (szerokość, grubość, typ (cewka, arkusz itp.) wynikowych typów stali.

Użycie: przewidywanie dowolnego z dwóch atrybutów klasy liczbowej: twardość lub siła. Można również analizować korelacje między atrybutami.

Klasy stalowe są zgodne ze standardowym standardem zdefiniowanym przez SAE i inne organizacje. Szukasz określonej klasy (zmiennej klasy) i chcesz zrozumieć potrzebne wartości.

Powiązane badania: Sterling, D. & Buntine, W. (NA). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information and Computer Science

Przydatny przewodnik po klasach stalowych można znaleźć tutaj: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Dane teleskopu Zapis cząstek gamma o wysokiej energii wraz z szumem tła, oba symulowane przy użyciu procesu Monte Carlo.

Celem symulacji było zwiększenie dokładności lądowych klimatyzacyjnych teleskopów gamma Cherenkov. Odbywa się to przy użyciu metod statystycznych, aby odróżnić żądany sygnał (deszcze promieniowania Cherenkov) i szum tła (deszcze hadroniczne inicjowane przez promienie kosmiczne w górnej atmosferze).

Dane zostały wstępnie przetworzone, aby utworzyć wydłużony klaster z długą osią jest zorientowany na środek kamery. Cechy tego wielokropka (często nazywane parametrami Hillas) są jednymi z parametrów obrazu, które mogą być używane do dyskryminacji.

Użycie: określ, czy obraz prysznica reprezentuje sygnał, czy szum tła.

Uwagi: Dokładność klasyfikacji prostej nie ma znaczenia dla tych danych, ponieważ klasyfikowanie zdarzenia w tle jako sygnału jest gorsze niż klasyfikowanie zdarzenia sygnału jako tła. Dla porównania różnych klasyfikatorów należy użyć grafu ROC. Prawdopodobieństwo zaakceptowania zdarzenia w tle jako sygnału musi być poniżej jednego z następujących progów: 0,01, 0,02, 0,05, 0,1 lub 0,2.

Należy również zauważyć, że liczba wydarzeń w tle (h, dla pryszniców hadronicznych) jest niedoszacowana. W rzeczywistych pomiarach klasa h lub szum reprezentuje większość zdarzeń.

Powiązane badania: Bock, R.K. (1995). Repozytorium https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: University of California, School of Information
Zestaw danych pogody Obserwacje pogody oparte na godzinach z NOAA (scalone dane z 201304 do 201310 r.).

Dane pogodowe obejmują obserwacje ze stacji pogodowych na lotnisku, obejmujące okres od kwietnia do października 2013 r. Przed przekazaniem do usługi Machine Learning Studio (wersja klasyczna) zestaw danych został przetworzony w następujący sposób:
  • Identyfikatory stacji pogodowej zostały zamapowane na odpowiednie identyfikatory lotnisk
  • Stacje pogodowe niezwiązane z 70 najbardziej ruchliwymi lotniskami zostały odfiltrowane
  • Kolumna Date została podzielona na oddzielne kolumny Year, Month i Day
  • Wybrano następujące kolumny: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Wikipedia SP 500 Dataset Dane pochodzą z Wikipedii (https://www.wikipedia.org/) na podstawie artykułów każdej firmy S&P 500 przechowywanej jako dane XML.

Przed przekazaniem do usługi Machine Learning Studio (wersja klasyczna) zestaw danych został przetworzony w następujący sposób:
  • Wyodrębnianie zawartości tekstowej dla każdej konkretnej firmy
  • Usuwanie formatowania witryny typu wiki
  • Usuń znaki inne niż alfanumeryczne
  • Konwertowanie całego tekstu na małe litery
  • Dodano znane kategorie firm

Należy pamiętać, że w przypadku niektórych firm nie można odnaleźć artykułu, więc liczba rekordów jest mniejsza niż 500.
direct_marketing.csv Zestaw danych zawiera dane klientów i wskazówki dotyczące ich odpowiedzi na bezpośrednią kampanię wysyłkową. Każdy wiersz reprezentuje klienta. Zestaw danych zawiera dziewięć funkcji dotyczących danych demograficznych użytkowników i przeszłych zachowań oraz trzy kolumny etykiet (odwiedź, konwersję i wydatki). Visit to kolumna binarna wskazująca, że klient odwiedził po kampanii marketingowej. Konwersja wskazuje, że klient kupił coś. Wydatki to kwota, która została wydana. Zestaw danych został udostępniony przez Kevina Hillstroma dla aplikacji MineThatData E-Mail Analytics and Data Mining Challenge.
lyrl2004_tokens_test.csv Funkcje przykładów testów w zestawie danych wiadomości RCV1-V2 Reuters. Zestaw danych zawiera artykuły z wiadomościami o rozmiarze 781K wraz z identyfikatorami (pierwsza kolumna zestawu danych). Każdy artykuł jest tokenizowany, stopworded i stemmed. Zestaw danych został udostępniony przez Davida. D. Lewis.
lyrl2004_tokens_train.csv Funkcje przykładów szkoleniowych w zestawie danych wiadomości RCV1-V2 Reuters. Zestaw danych zawiera 23K artykułów z wiadomościami wraz z ich identyfikatorami (pierwsza kolumna zestawu danych). Każdy artykuł jest tokenizowany, stopworded i stemmed. Zestaw danych został udostępniony przez Davida. D. Lewis.
network_intrusion_detection.csv
Zestaw danych z programu KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

Zestaw danych został pobrany i przechowywany w usłudze Azure Blob Storage (network_intrusion_detection.csv) oraz zawiera zarówno zestawy danych szkoleniowych, jak i testowych. Zestaw danych trenowania zawiera około 126 000 wierszy i 43 kolumn, w tym etykiety. Trzy kolumny są częścią informacji o etykiecie, a 40 kolumn składających się z cech liczbowych i ciągowych/kategorii są dostępne do trenowania modelu. Dane testowe mają około 22,5 tys. przykładów testów z tymi samymi 43 kolumnami co w danych treningowych.
rcv1-v2.topics.qrels.csv Przypisania tematów dla artykułów z wiadomościami w zestawie danych wiadomości RCV1-V2 Reuters. Artykuł z wiadomościami można przypisać do kilku tematów. Format każdego wiersza to "<nazwa><tematu o identyfikatorze> dokumentu 1". Zestaw danych zawiera przypisania tematów 2.6M. Zestaw danych został udostępniony przez Davida. D. Lewis.
student_performance.txt Te dane pochodzą z wyzwania oceny wydajności uczniów KDD Cup 2010 (ocena wydajności uczniów). Używane dane to zestaw treningowy Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Zestaw danych wyzwania z programu KDD Cup 2010 Edukacyjne wyzwanie dotyczące wyszukiwania danych. Znajdź go w downloads.jsp.

Zestaw danych został pobrany i zapisany w usłudze Azure Blob Storage (student_performance.txt) i zawiera pliki dziennika z systemu nauczania uczniów. Podane funkcje obejmują identyfikator problemu i jego krótki opis, identyfikator ucznia, sygnaturę czasową i liczbę prób wykonanych przez ucznia przed rozwiązaniem problemu we właściwy sposób. Oryginalny zestaw danych zawiera rekordy 8,9 mln; ten zestaw danych został usunięty do pierwszych 100 000 wierszy. Zestaw danych zawiera 23 kolumny rozdzielane tabulatorami różnych typów: numeryczne, podzielone na kategorie i znacznik czasu.

Następne kroki