Zestawy danych licencji Azure Open

Artykuł
02/25/2025

Popraw dokładność swoich modeli uczenia maszynowego za pomocą publicznie dostępnych zestawów danych. Aby zaoszczędzić czas na odnajdywanie i przygotowywanie danych, użyj wyselekcjonowanych zestawów danych gotowych do pracy z projektami uczenia maszynowego.

Transport

Zestaw danych	opis
TartanAir: Zestaw danych symulacji AirSim	Dane pojazdów autonomicznych AirSim wygenerowane w celu rozwiązania jednoczesnej lokalizacji i mapowania (SLAM).
NYC Taxi & Limousine Commission - żółte rekordy przejazdów taksówką	Żółte rekordy przejazdów taksówką obejmują daty odbioru i drop-off/ godziny, pick-up i drop-off lokalizacji, odległości podróży, wyszczególnione taryfy, typy stawek, typy płatności i liczby pasażerów zgłaszane przez kierowców.
NYC Taxi & Limousine Commission - zielone rekordy przejazdów taksówką	Rekordy zielonych przejazdów taksówką obejmują daty odbioru i wysyłce/godziny, lokalizacje odbioru i drop-off, odległości podróży, wyszczególnione taryfy, typy stawek, typy płatności i liczby pasażerów zgłaszane przez kierowców.
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) rekordy podróży	Rekordy podróży for-hire vehicle obejmują numer licencji podstawowej wysyłki oraz identyfikator lokalizacji odbioru, godziny i strefy taksówek.

Kondycja i genomiki

Zestaw danych	opis
COVID-19 Data Lake	Kolekcja usługi COVID-19 Data Lake zawiera zestawy danych związane z chorobą COVID-19, pochodzące z różnych źródeł, obejmujące dane śledzenia testowania i wyników pacjentów, politykę utrzymania dystansu społecznego, przepustowość szpitali, mobilność itp.

Praca i ekonomia

Zestaw danych	opis
US Labor Force Statistics (Statystyki dotyczące siły roboczej w USA)	Us Labor Force Statistics zapewnia statystyki siły roboczej, współczynniki uczestnictwa w siłach pracy i ludności cywilnej nonkluzyjności według wieku, płci, rasy i grup etnicznych w Stany Zjednoczone.
US National Employment Hours and Earnings (Liczba przepracowanych godzin i zarobki w skali kraju w USA)	Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
US State Employment Hours and Earnings (Liczba przepracowanych godzin i zarobki w skali stanów w USA)	Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
US Local Area Unemployment Statistics (Lokalne statystyki bezrobocia w USA)	Zestawy danych programu US Local Area Unemployment Statistics (Lokalne statystyki bezrobocia w Stanach Zjednoczonych) dostarczają miesięcznych i rocznych danych dotyczących zatrudnienia, bezrobocia i zasobu siły roboczej w poszczególnych regionach i okręgach spisowych, stanach, hrabstwach, obszarach metropolitalnych i wielu miastach w Stanach Zjednoczonych.
Amerykański wskaźnik cen towarów i usług konsumpcyjnych	Wskaźnik cen konsumpcyjnych (CPI) mierzy średnią zmianę cen w czasie płaconych przez konsumentów miejskich dla koszyka rynkowego towarów i usług konsumpcyjnych.
Amerykański wskaźnik cen dóbr produkcyjnych — przemysł	Indeks cen producentów (PPI) mierzy średnią zmianę w miarę upływu czasu w cenach sprzedaży otrzymanych przez producentów krajowych za ich produkcję.
Amerykański wskaźnik cen dóbr produkcyjnych — towary	Indeks cen producentów (PPI) mierzy średnią zmianę w miarę upływu czasu w cenach sprzedaży otrzymanych przez producentów krajowych za ich towary.

Populacja i bezpieczeństwo

Zestaw danych	opis
Populacja amerykańska według hrabstwa	Populacja USA według płci i rasy dla każdego hrabstwa USA, pochodzącego z 2000 i 2010 decennial Census. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Populacja amerykańska według kodu pocztowego	Populacja USA według płci i rasy dla każdego amerykańskiego kodu pocztowego, pochodzi z 2010 decennial Census. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Dane dotyczące bezpieczeństwa w Bostonie	Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Bostonie. Ten zestaw danych jest przechowywany w formacie Parquet i otrzymuje codzienne aktualizacje.
Dane bezpieczeństwa Chicago	Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Chicago. Ten zestaw danych jest przechowywany w formacie Parquet i otrzymuje codzienne aktualizacje.
Dane dotyczące bezpieczeństwa w Nowym Jorku	Ten zestaw danych zawiera wszystkie zgłoszenia na numer 311 w Nowym Jorku od roku 2010. Ten zestaw danych jest przechowywany w formacie Parquet i otrzymuje codzienne aktualizacje.
Dane dotyczące bezpieczeństwa w San Francisco	Wezwania straży pożarnej oraz zgłoszenia na numer 311 w San Francisco. Ten zestaw danych zawiera historyczne rekordy od roku 2015.
Dane bezpieczeństwa Seattle	Zgłoszenia na numer 911 straży pożarnej miasta Seattle. Ten zestaw danych jest codziennie aktualizowany i zawiera historyczne rekordy od roku 2010

Dodatkowe i typowe zestawy danych

Zestaw danych	opis
Cukrzyca	Zestaw danych Diabetes (Cukrzyca) ma 442 próbki z 10 funkcjami, dzięki czemu doskonale nadaje się do rozpoczęcia korzystania z algorytmów uczenia maszynowego.
Symulowane dane dotyczące sprzedaży w usłudze OJ	Ten zestaw danych pochodzi z zestawu danych OJ Firmy Dominick i zawiera dodatkowe symulowane dane, a celem jest zapewnienie zestawu danych, który ułatwia jednoczesne trenowanie tysięcy modeli w usłudze Azure Machine Learning.
Baza danych MNIST cyfr odręcznych	Baza danych napisanych odręcznie cyfr MNIST obejmuje zestaw treningowy zawierający 60 000 przykładów oraz zestaw testowy zawierający 10 000 przykładów. Cyfry są znormalizowane rozmiarem i wyśrodkowane w obrazie o stałym rozmiarze.
Zestaw danych rekomendacji usługi Microsoft News	Microsoft News Dataset (MIND) to zestaw danych na dużą skalę na potrzeby badań rekomendacji dotyczących wiadomości. Służy jako zestaw danych porównawczych dla rekomendacji dotyczących wiadomości i ułatwia badania w systemach rekomendacji dotyczących wiadomości i rekomendacji.
Święta	Dane dotyczące świąt na całym świecie pobrane z pakietu PyPI holidays oraz witryny Wikipedia, obejmujące 38 krajów i regionów w latach 1970–2099.
Rosyjska otwarta mowa na tekst	Russian Open STT to wieloskalowa otwarta mowa do zestawu danych tekstowych dla języka rosyjskiego

Udostępnij za pośrednictwem