다음을 통해 공유


Machine Learning Studio(클래식)에서 샘플 데이터 세트 사용

적용 대상: 적용 대상Machine Learning Studio(클래식) 미적용 대상Azure Machine Learning

Important

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

Machine Learning Studio(클래식)에서 새 작업 영역을 만들 때 다양한 샘플 데이터 세트 및 실험이 기본적으로 포함됩니다. 이러한 샘플 데이터 세트의 대부분은 Azure AI 갤러리의 샘플 모델에서 사용됩니다. 그 외는 기계 학습에 일반적으로 사용되는 다양한 유형의 데이터의 예로 포함됩니다.

이러한 데이터 세트 중 일부는 Azure Blob Storage에서 사용할 수 있습니다. 이러한 데이터 세트의 경우 다음 표에서는 직접 링크를 제공합니다. 데이터 가져오기 모듈을 사용하여 이 데이터 세트를 실험에 사용할 수 있습니다.

이러한 샘플 데이터 세트의 나머지 내용은 저장된 데이터 세트 아래 의 작업 영역에서 사용할 수 있습니다. Machine Learning Studio(클래식)의 실험 캔버스 왼쪽에 있는 모듈 팔레트에서 찾을 수 있습니다. 실험 캔버스로 끌어서 사용자 고유의 실험에서 이러한 데이터 세트를 사용할 수 있습니다.

데이터 세트

데이터 세트 이름 데이터 세트 설명
성인 인구 조사 소득 이진 분류 데이터 세트 1994년 인구 조사 데이터베이스의 하위 집합으로, 조정된 소득 지수가 > 100인 16세 이상의 일하는 성인을 사용합니다.

사용: 인구 통계를 기반으로 사람을 분류하여 개인의 소득이 연간 50,000을 초과할지 예측합니다.

관련 조사: Kohavi, R., Becker, B., (1996). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교
공항 코드 데이터 세트 미국 공항 코드.

이 데이터 세트는 각 미국 공항에 대해 하나의 행을 포함하며, 위치 도시 및 주와 함께 공항 ID 번호와 이름을 제공합니다.
자동차 가격 데이터(원시) 가격, 실린더 및 MPG 수와 같은 기능, 보험 위험 점수를 포함하여 상표 및 모델별 자동차에 대한 정보입니다.

위험 점수는 처음에 자동차 가격과 연관이 있습니다. 그런 다음 보험 회계사에게 기호화로 알려진 프로세스에서 실제 위험에 맞게 조정됩니다. +3 값은 자동차가 위험함을 나타내고 -3 값은 안전함을 나타냅니다.

사용: 회귀 및 다변수 분류를 사용하여 기능별 위험 점수를 예측합니다.

관련 연구: Schlimmer, J.C. (1987). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교
Bike Rental UCI 데이터 세트 워싱턴 DC에서 자전거 대여 네트워크를 유지 관리하는 Capital Bikeshare 회사의 실제 데이터를 기반으로 하는 UCI 자전거 대여 데이터 세트입니다.

데이터 세트에는 2011년 및 2012년의 매일 매시간에 대한 행 하나가 있고, 전체 17379개의 행이 있습니다. 매시간 자전거 임대 범위는 1-977입니다.
Bil Gates RGB 이미지 CSV 데이터로 변환된 공개적으로 사용 가능한 이미지 파일입니다.

이미지를 변환하기 위한 코드는 K-평균 클러스터링 모델 세부 정보 페이지를 사용하여 색 양자화에 제공됩니다.
헌혈 데이터 대만 Hsin-Chu 시의 수혈 서비스 센터의 혈액 기증자 데이터베이스에서 데이터의 하위 집합입니다.

현혈자 데이터에는 마지막 헌혈 이후 지난 개월 수, 빈도 또는 총 헌혈 횟수, 마지막 헌혈 이후 시간, 헌혈량이 포함됩니다.

사용법: 목표는 2007년 3월에 기증자가 혈액을 기증했는지 여부를 분류를 통해 예측하는 것이며, 여기서 1은 목표 기간 동안 기증자를 나타내고 0은 비공여자를 나타냅니다.

관련 연구: 예, I.C., (2008). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교

Yeh, I-Cheng, Yang, King-Jang 및 Ting, Tao-Ming, "Bernoulli 시퀀스를 사용한 RFM 모델에 대한 지식 검색, "애플리케이션이 있는 전문가 시스템, 2008년, https://dx.doi.org/10.1016/j.eswa.2008.07.018
유방암 데이터 기계 학습 문헌에 자주 나타나는 종양학 연구소에서 제공하는 세 가지 암 관련 데이터 세트 중 하나입니다. 약 300개의 조직 샘플에 대한 실험실 분석의 기능과 진단 정보를 결합합니다.

사용법: 9가지 특성에 따라 암 유형을 분류합니다. 그 중 일부는 선형이고 일부는 범주입니다.

관련 연구: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교
유방암 기능 데이터 세트에서는 X선 이미지의 102,000개 의심 영역(후보)에 대한 정보가 117가지 기능에 의해 설명됩니다. 기능은 독점적이며 해당 의미는 데이터 세트 작성자(Siemens Healthcare)에 의해 공개되지 않습니다.
유방암 정보 데이터 세트에는 X선 이미지의 의심스러운 각 영역에 대한 추가 정보가 포함되어 있습니다. 각 예제는 유방암 기능 데이터 세트의 해당 행 번호에 대한 정보(예: 레이블, 환자 ID, 전체 이미지에 상대적인 패치의 좌표)를 제공합니다. 각 환자에게는 여러 가지 예가 있습니다. 암이 있는 환자의 경우 일부 예제는 양성이고 일부는 음성입니다. 암이 없는 환자의 경우 모든 예제는 음성입니다. 데이터 세트에는 102K 예제가 있습니다. 데이터 세트가 편향적이며, 요소의 0.6%가 양성이고 나머지는 음성입니다. 데이터 세트는 Siemens Healthcare가 제공했습니다.
CRM 욕구 레이블 공유 KDD Cup 2009 고객 관계 예측 챌린지의 레이블(orange_small_train_appetency.labels).
CRM 이탈 레이블 공유 KDD Cup 2009 고객 관계 예측 챌린지의 레이블(orange_small_train_churn.labels).
CRM 데이터 세트 공유 이 데이터는 KDD Cup 2009 고객 관계 예측 챌린지(orange_small_train.data.zip)에서 제공됩니다.

데이터 세트에는 French Telecom 회사인 Orange의 고객 50,000명이 포함됩니다. 각 고객은 익명으로 처리되는 230개 기능을 가지며, 이 중 190개는 숫자이고 40개는 범주입니다. 기능이 매우 희박합니다.
CRM 상향 판매 레이블 공유 KDD Cup 2009 고객 관계 예측 챌린지(orange_large_train_upselling.labels)의 레이블입니다.
에너지 효율 회귀 데이터 12가지 건물 형태에 따라 시뮬레이트된 에너지 프로필의 컬렉션입니다. 건물은 8가지 기능으로 구분됩니다. 여기에는 유약 영역, 유약 영역 분포 및 방향이 포함됩니다.

사용량: 회귀 또는 분류를 사용하여 두 가지 실제 가치 응답 중 하나로 에너지 효율 등급을 예측합니다. 다중 클래스 분류의 경우 응답 변수를 가장 가까운 정수로 반올림합니다.

관련 연구: 시파라, A. & Tsanas, A. (2012). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교
비행 지연 데이터 미국 운수부 TranStats 데이터 컬렉션에서 가져온 여객기 운항정시성 데이터(정시)

데이터 세트는 2013년 4월-10월 기간에 해당합니다. Machine Learning Studio(클래식)에 업로드하기 전에 데이터 세트는 다음과 같이 처리되었습니다.
  • 데이터 세트는 미국 본토에서 비행이 가장 많은 공항 70곳만을 포함하도록 필터링되었습니다.
  • 취소된 항공편은 15분 이상 지연됨으로 레이블이 지정되었습니다.
  • 우회된 항공편이 필터링되었습니다.
  • Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled 열이 선택되었습니다.
플라이트 정시 성능(원시) 2011년 10월부터 미국 내 비행기 도착 및 출발 기록.

사용: 비행 지연을 예측합니다.

관련된 연구: 미국 교통부 https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
산불 데이터 기온 및 습도 지수, 풍속 같은 날씨 데이터를 포함합니다. 이 데이터는 포르투갈 북동부 지역에서 가져와 산불 기록과 결합됩니다.

사용법: 이것은 산불의 연소 영역을 예측하는 것이 목표인 어려운 회귀 작업입니다.

관련 연구: 코르테즈, P., 모라이스, A. (2008). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교

[코르테즈와 모라이스, 2007] P. 코르테즈와 A. 모라이스. 기상 데이터를 사용하여 산불을 예측하는 데이터 마이닝 방법입니다. Neves, Santos 및 J. Machado Eds., AI의 새로운 추세, 13회 EPIA 2007 - AI에 관한 포르투갈 컨퍼런스, 12월, 포르투갈 기마랑이스, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. 사용 가능한 날짜: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
독일 신용 카드 UCI 데이터 세트 german.data 파일을 사용한 UCI Statlog(독일 신용 카드) 데이터 세트(Statlog+German+Credit+Data).

데이터 세트는 특성 집합으로 설명된 사람을 낮은 신용 위험 또는 높은 신용 위험으로 분류합니다. 각 예제는 개인을 나타냅니다. 숫자 및 범주의 기능 20개와 이진 레이블(신용 위험 값)이 있습니다. 높은 신용 위험 항목의 레이블은 2이고, 낮은 신용 위험 항목의 레이블은 1입니다. 낮은 위험 예제를 높은 위험으로 잘못 분류한 비용은 1이지만, 높은 위험 예제를 낮은 위험으로 분류한 비용은 5입니다.
IMDB 영화 제목 이 데이터 세트에는 Twitter 트윗에서 평가된 영화에 대한 정보가 포함됩니다(IMDB 영화 ID, 영화 제목, 장르, 제작 연도). 이 데이터 세트에는 170,000 개의 영화가 있습니다. 데이터 세트는 논문 "S. Dooms, T. De Pessemier 및 L. Martens. MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013"에서 소개되었습니다.
아이리스 2클래스 데이터 이는 아마도 패턴 인식 문헌에서 찾을 수 있는 가장 잘 알려진 데이터베이스일 것입니다. 데이터 세트는 3가지 홍채 종류에서 각 꽃잎 측정의 50개의 예를 포함하는 상대적으로 작습니다.

사용량: 측정값에서 홍채 종류를 예측합니다.

관련 연구: Fisher, R.A. (1988). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교
영화 트윗 이 데이터 세트는 Movie Tweetings 데이터 세트의 확장된 버전입니다. 이 데이터 세트에는 잘 구성된 Twitter 트윗에서 추출한 170,000개의 영화 등급이 있습니다. 각 인스턴스는 트윗을 나타내며 사용자 ID, IMDB 영화 ID, 등급, 타임 스탬프, 해당 트윗에 대한 즐겨찾기 수, 해당 트윗의 리트윗 수 등과 같은 튜플입니다. 이 데이터 세트는 A. Said, S. Dooms, B. Loni 및 D. Tikk가 Recommender Systems Challenge 2014를 위해 제공했습니다.
다양한 자동차에 대한 MPG 데이터 이 데이터 세트는 카네기 멜론 대학의 StatLib 라이브러리에서 제공하는 데이터 세트의 약간 수정된 버전입니다. 데이터 세트는 1983년 미국 통계 협회 박람회에서 사용되었습니다.

데이터는 갤런당 마일 단위로 다양한 자동차의 연료 소비량을 나열합니다. 실린더 수, 엔진 변위, 마력, 총 중량 및 가속과 같은 정보도 포함됩니다.

사용: 다중 값 개별 특성 3개와 연속 특성 5개를 기반으로 연비를 예측합니다.

관련 연구: StatLib, 카네기 멜론 대학, (1993). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교
Pima Indians 당뇨병 이진 분류 데이터 세트 당뇨병과 소화 및 신장 질환 데이터베이스의 국립 연구소에서 데이터의 하위 집합. 데이터 세트는 피마 인도 유산의 여성 환자에 초점을 필터링했다. 데이터는 포도당과 인슐린 수준과 같은 의학 데이터 뿐 아니라 생활양식 요인을 포함합니다.

사용법: 주체에 당뇨병이 있는지 여부를 예측합니다(이진 분류).

관련 연구: 시길리토, V. (1990). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml". 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교
음식점 고객 데이터 인구 통계 및 선호도를 비롯한 고객에 대한 메타데이터 집합입니다.

사용: 이 데이터 세트를 다른 두 가지 음식점 데이터 세트와 함께 사용하여 추천 시스템을 학습 및 테스트합니다.

관련 조사: Bache, K. and Lichman, M. (2013). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
음식점 기능 데이터 음식점 및 음식 종료, 식사 스타일, 위치 같은 기능에 대한 메타데이터 집합입니다.

사용: 이 데이터 세트를 다른 두 가지 음식점 데이터 세트와 함께 사용하여 추천 시스템을 학습 및 테스트합니다.

관련 조사: Bache, K. and Lichman, M. (2013). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
음식점 등급 0-2점 사이에 사용자가 제공한 음식점 등급을 포함합니다.

사용: 이 데이터 세트를 다른 두 가지 음식점 데이터 세트와 함께 사용하여 추천 시스템을 학습 및 테스트합니다.

관련 조사: Bache, K. and Lichman, M. (2013). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
강철 가열 냉각 다중 클래스 데이터 세트 이 데이터 세트는 강철 가열 냉각 시도에서 얻은 일련의 레코드를 포함합니다. 여기에는 결과 강철 유형의 물리적 특성(너비, 두께, 유형(코일, 시트 등))이 포함됩니다.

사용법: 두 숫자 클래스 특성(경도 또는 강도)을 예측합니다. 특성 간의 상관 관계를 분석할 수도 있습니다.

강철 등급은 SAE 및 기타 조직에서 정의한 정해진 표준을 따릅니다. 특정 '등급'(클래스 변수)을 찾고 있으며 필요한 값을 이해하려고 합니다.

관련 연구: 스털링, D. & 번틴, W. (NA). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보 및 컴퓨터 과학 학교

여기에서 강철 등급에 대한 유용한 지침을 확인할 수 있습니다. https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
망원경 데이터 몬테카를로 프로세스를 사용하여 시뮬레이션된 배경 소음과 함께 고에너지 감마 입자 버스트의 기록입니다.

시뮬레이션의 의도는 지상 대기 체렌코프 감마 망원경을 향상하는 것이었습니다. 이것은 원하는 신호 (Cherenkov 방사선 샤워)와 배경 소음 (상부 대기의 우주 광선에 의해 시작된 hadronic 샤워)을 구별하기 위해 통계 방법을 사용하여 수행됩니다.

데이터는 긴 축이 카메라 중심을 향하도록 하여 가늘고 긴 클러스터를 만들도록 전처리되었습니다. 이 타원의 특성(Hillas 매개 변수라고도 함)은 구분에 사용할 수 있는 이미지 매개 변수 중 하나입니다.

사용: 샤워 이미지가 신호 또는 배경 소음을 나타내는지를 예측합니다.

참고: 백그라운드 이벤트를 신호로 분류하는 것이 신호 이벤트를 배경으로 분류하는 것보다 더 나빠지므로 단순 분류 정확도는 이 데이터에 의미가 없습니다. 다른 분류자를 비교하려면 ROC 그래프를 사용해야 합니다. 배경 이벤트를 신호로 수락할 가능성은 임계값 0.01, 0.02, 0.05, 0.1 또는 0.2 중 하나보다 낮아야 합니다.

또한 배경 이벤트 수(하드론 샤워의 경우 h)는 과소 예측되지만 실제 측정에서 h 또는 노이즈 클래스는 대부분의 이벤트를 나타냅니다.

관련 연구: Bock, R.K. (1995). UCI Machine Learning 리포지토리 https://archive.ics.uci.edu/ml. 캘리포니아 주 어바인: 캘리포니아 대학교 정보학교
날씨 데이터 세트 NOAA에서 제공한 시간별 지상 기상 관측(201304부터 201310까지의 병합된 데이터).

기상 데이터는 2013년 4월-10월 기간에 공항 기상 관측소에서 수행된 관측을 포함합니다. Machine Learning Studio(클래식)에 업로드하기 전에 데이터 세트는 다음과 같이 처리되었습니다.
  • 기상 관측소 ID가 해당 공항 ID에 매핑되었습니다.
  • 가장 붐비는 70개 공항과 연결되지 않은 기상 관측소가 필터링되었습니다.
  • 날짜 열이 별도의 Year, Month 및 Day 열로 분할되었습니다.
  • 다음 열이 선택되었습니다. AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Wikipedia SP 500 데이터 세트 데이터는 XML 데이터로 저장되는 각 S&P 500 회사의 자료에 따라 Wikipedia(https://www.wikipedia.org/)에서 파생됩니다.

Machine Learning Studio(클래식)에 업로드하기 전에 데이터 세트는 다음과 같이 처리되었습니다.
  • 각 특정 회사에 대한 텍스트 콘텐츠 추출
  • 위키 서식 제거
  • 영숫자가 아닌 문자 제거
  • 모든 텍스트를 소문자로 변환
  • 알려진 회사 범주가 추가되었습니다.

일부 회사의 경우 문서를 찾을 수 없으므로 레코드 수가 500개 미만입니다.
direct_marketing.csv 데이터 세트에 고객 데이터 및 다이렉트 메일 캠페인 회신에 대한 내용이 포함됩니다. 각 행은 고객을 나타냅니다. 데이터 세트에 사용자 인구 통계와 과거 동작에 대한 9개의 기능 및 3개의 레이블 열(방문, 전환, 지출)이 포함됩니다. 방문은 마케팅 캠페인 이후에 고객이 방문했음을 나타내는 이진 열입니다. 변환은 고객이 무언가를 구매했음을 나타냅니다. 지출은 지출된 금액입니다. 이 데이터 세트는 MineThatData 전자 메일 분석 및 데이터 마이닝 챌린지에 대한 Kevin Hillstrom에 의해 제공되었습니다.
lyrl2004_tokens_test.csv RCV1-V2 로이터 뉴스 데이터 세트의 테스트 예제 기능 데이터 세트에는 ID(데이터 세트의 첫 번째 열)와 함께 781K 뉴스 기사가 있습니다. 각 아티클은 토큰화, 중지 단어 및 형태소 분석됩니다. 데이터 세트는 David에 의해 제공되었습니다. D. 루이스.
lyrl2004_tokens_train.csv RCV1-V2 로이터 뉴스 데이터 세트의 학습 예제 기능. 데이터 세트에는 ID(데이터 세트의 첫 번째 열)와 함께 23K 뉴스 기사가 있습니다. 각 아티클은 토큰화, 중지 단어 및 형태소 분석됩니다. 데이터 세트는 David에 의해 제공되었습니다. D. 루이스.
network_intrusion_detection.csv
KDD Cup 1999 지식 검색 및 데이터 마이닝 도구 대회(kddcup99.html)의 데이터 세트입니다.

데이터 세트가 다운로드되어 Azure Blob Storage(network_intrusion_detection.csv)에 저장되었으며 학습 및 테스트 데이터 세트가 모두 포함되어 있습니다. 학습 데이터 세트에는 레이블을 포함하여 약 126K 행과 43개의 열이 있습니다. 3개 열은 레이블 정보 부분이며 숫자 및 문자열/범주 기능으로 구성된 40개 열은 모델 학습에 사용할 수 있습니다. 테스트 데이터에는 학습 데이터와 동일한 43개의 열이 있는 약 22.5K 테스트 예제가 있습니다.
rcv1-v2.topics.qrels.csv RCV1-V2 로이터 뉴스 데이터 세트의 뉴스 기사에 대한 토픽 할당. 뉴스 기사는 여러 항목에 할당할 수 있습니다. 각 행의 형식은 "<항목 이름><문서 ID> 1"입니다. 데이터 세트에는 2.6M 토픽 할당이 포함됩니다. 데이터 세트는 David에 의해 제공되었습니다. D. 루이스.
student_performance.txt 이 데이터는 KDD Cup 2010 학생 성과 평가 과제(학생 성과 평가)에서 가져옵니다. 사용된 데이터는 Algebra_2008_2009 학습 집합(Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R.(2010))입니다. Algebra I 2008-2009. KDD Cup 2010 교육 데이터 마이닝 챌린지의 데이터 세트에 도전합니다. downloads.jsp 찾을 수 있습니다.

데이터 세트이 다운로드되어 Azure Blob Storage(student_performance.txt)에 저장되었고 학생 교육 시스템의 로그 파일을 포함합니다. 제공된 기능에는 문제 ID 및 간략한 설명, 학생 ID, 타임스탬프, 올바른 방법으로 문제를 해결하기 전에 학생이 시도한 횟수가 포함됩니다. 원래 데이터 세트에는 8.9M 레코드가 있습니다. 이 데이터 세트는 처음 100K 행으로 다운 샘플링되었습니다. 데이터 세트에는 숫자, 범주, 타임스탬프 형식의 탭으로 구분된 23개 열이 있습니다.

다음 단계