Azure Open Datasets
공개적으로 사용 가능한 데이터 세트를 사용하여 기계 학습 모델의 정확도를 향상시킵니다. 데이터 검색 및 준비 시간을 절약하려면 기계 학습 프로젝트에 사용할 준비가 된 큐레이팅된 데이터 세트를 사용합니다.
운송
데이터 세트 |
설명 |
TartanAir: AirSim Simulation 데이터 세트 |
SLAM(Simultaneous Localization and Mapping)을 해결하기 위해 생성된 AirSim 자율주행차 데이터 |
NYC 택시 및 리무진 협회 - 노란색 택시 이동 레코드 |
노란색 택시 이동 레코드에는 승차 및 하차 날짜/시간, 승차 및 하단 위치, 이동 거리, 항목별 요금, 요율 종류, 지불 유형 및 운전자가 보고한 승객 수가 포함됩니다. |
NYC 택시 및 리무진 협회 - 녹색 택시 이동 레코드 |
녹색 택시 이동 레코드에는 승차 및 하차 날짜/시간, 승차 및 하단 위치, 이동 거리, 항목별 요금, 요율 종류, 지불 유형 및 운전자가 보고한 승객 수가 포함됩니다. |
NYC 택시 및 리무진 협회 - FHV(임대 차량) 여행 기록 |
For-Hire Vehicle 이동 레코드는 배차 기준 면허증 번호 및 픽업 날짜/시간, 택시 승차 구역 위치 ID를 포함합니다. |
상태 및 유전체학
데이터 세트 |
설명 |
코로나19 Data Lake |
코로나19 데이터 레이크 컬렉션은 검사 및 환자 결과 추적 데이터, 사회적 거리두기 정책, 병원 수용 능력, 이동성 등 다양한 원본의 코로나19 관련 데이터 세트 컬렉션입니다. |
노동 및 경제
데이터 세트 |
설명 |
미국 노동력 통계 |
미국 노동력 통계는 미국의 연령, 성별, 인종, 민족 그룹별 노동력 통계, 노동력 참여율, 민간 비제도권 인구에 대한 정보를 제공합니다. |
미국 국가 고용 시간 및 소득 |
CES(Current Employment Statistics) 프로그램은 미국의 급여 대장에 있는 노동자의 농장 이외 고용, 시간 및 소득의 자세한 산업 예상치를 생성합니다. |
미국 주 고용 시간 및 소득 |
CES(Current Employment Statistics) 프로그램은 미국의 급여 대장에 있는 노동자의 농장 이외 고용, 시간 및 소득의 자세한 산업 예상치를 생성합니다. |
미국 지역 실업 통계 |
미국 지역 실업 통계 데이터 세트는 미국의 인구 조사 지역 및 구역, 주, 카운티, 대도시 지역 및 여러 도시에 대한 월별 및 연간 고용, 실업 및 노동력 데이터를 제공합니다. |
미국 소비자 물가 지수 |
CPI(소비자 물가 지수)는 도시 소비자들이 소비재 및 서비스 시장 바구니에 대해 지불하는 가격의 시간 경과에 따른 평균 변화를 측정합니다. |
미국 생산자 물가 지수 - 산업 |
PPI(생산자 물가 지수)는 국내 생산자가 생산물에 대해 받는 판매 가격의 시간 경과에 따른 평균 변화를 측정합니다. |
미국 생산자 물가 지수 - 상품 |
PPI(생산자 물가 지수)는 국내 생산자가 상품에 대해 받는 판매 가격의 시간 경과에 따른 평균 변화를 측정합니다. |
인구 및 안전
데이터 세트 |
설명 |
자치주별 미국 인구 |
2000년 및 2010년 10년 단위 인구 조사에서 제공된 미국 각 자치주의 성별 및 인종별 미국 인구입니다. 이 데이터 세트의 출처는 미국 인구 조사국입니다. |
미국 우편 번호별 미국 인구 |
2010 Decennial Census에서 제공된 각 미국 우편 번호에 대한 성별 및 인종별 미국 인구입니다. 이 데이터 세트의 출처는 미국 인구 조사국입니다. |
보스턴 안전 데이터 |
보스턴시에 신고된 311 통화에 대한 데이터를 읽어보세요. 이 데이터 세트는 Parquet 형식으로 저장되며 매일 업데이트를 받습니다. |
시카고 안전 데이터 |
시카고시에 신고된 311 통화에 대한 데이터를 읽어보세요. 이 데이터 세트는 Parquet 형식으로 저장되며 매일 업데이트를 받습니다. |
뉴욕시 안전 데이터 |
이 데이터 세트는 2010년부터 현재까지의 모든 뉴욕시 311 서비스 요청을 포함하며, 이 데이터 세트는 Parquet 형식으로 저장되며 매일 업데이트를 받습니다. |
샌프란시스코 안전 데이터 |
샌프란시스코 소방서에서 서비스 및 311 사례를 요청합니다. 이 데이터 세트는 2015년부터 현재까지 누적된 기록 레코드를 포함합니다. |
시애틀 안전 데이터 |
시애틀 소방서 911 파견입니다. 이 데이터 세트는 매일 업데이트되며 2010년부터 현재까지 누적된 기록 레코드를 포함합니다. |
추가 및 공통 데이터 세트
데이터 세트 |
설명 |
당뇨병 |
Diabetes 데이터 세트에는 10개 특성이 포함된 442개 샘플이 있으며, 이는 기계 학습 알고리즘을 시작하는 데 적합합니다. |
OJ 판매 시뮬레이션 데이터 |
이 데이터 세트는 Dominick의 OJ 데이터 세트에서 파생되며, Azure Machine Learning에서 수천 대의 모델을 동시에 학습시킬 수 있는 데이터 세트를 제공하는 것을 목표로 추가 시뮬레이션된 데이터를 포함합니다. |
필기 숫자의 MNIST 데이터베이스 |
필기 숫자 MNIST 데이터베이스에는 예제 60,000개가 있는 학습 세트와 예제 10,000개가 있는 테스트 세트가 포함됩니다. 이 숫자는 크기를 표준화하였고 고정 크기 이미지로 중앙에 배치됩니다. |
Microsoft 뉴스 권장 사항 데이터 세트 |
MIND(Microsoft 뉴스 데이터 세트)는 뉴스 권장 사항 연구를 위한 대규모 데이터 세트입니다. 뉴스 추천의 벤치마크 데이터 세트 역할을 하고 뉴스 추천 및 추천 시스템을 쉽게 연구할 수 있도록 합니다. |
공휴일 |
전 세계 공휴일 데이터는 PyPI 휴일 패키지 및 Wikipedia에서 가져왔으며 1970년부터 2099까지 38개 국가 및 지역을 포함합니다. |
러시아어 음성 텍스트로 열기 |
러시아어 Open STT는 러시아어용 대규모 오픈 음성 텍스트 변환 데이터 세트입니다. |