Popraw dokładność swoich modeli uczenia maszynowego za pomocą publicznie dostępnych zestawów danych. Aby zaoszczędzić czas na odnajdywanie i przygotowywanie danych, użyj wyselekcjonowanych zestawów danych gotowych do pracy z projektami uczenia maszynowego.
Żółte rekordy przejazdów taksówką obejmują daty odbioru i drop-off/ godziny, pick-up i drop-off lokalizacji, odległości podróży, wyszczególnione taryfy, typy stawek, typy płatności i liczby pasażerów zgłaszane przez kierowców.
Rekordy zielonych przejazdów taksówką obejmują daty odbioru i wysyłce/godziny, lokalizacje odbioru i drop-off, odległości podróży, wyszczególnione taryfy, typy stawek, typy płatności i liczby pasażerów zgłaszane przez kierowców.
Kolekcja usługi COVID-19 Data Lake zawiera zestawy danych związane z chorobą COVID-19, pochodzące z różnych źródeł, obejmujące dane śledzenia testowania i wyników pacjentów, politykę utrzymania dystansu społecznego, przepustowość szpitali, mobilność itp.
Zestaw danych pełnotekstowych i metadanych artykułów naukowych związanych z covid-19 i osób powiązanych z dokumentami, zoptymalizowany pod kątem czytelności maszynowej i udostępniony do użytku przez globalną społeczność badawczą.
Usługa Genomics Data Lake udostępnia bezpłatnie różne publiczne zestawy danych, które są gotowe do integracji z przepływami pracy i aplikacjami analizy genomics. Zestawy danych obejmują sekwencje genów, informacje o odmianach oraz metadane podmiotów/próbek w formatach plików BAM, FASTA, VCF i CSV.
Us Labor Force Statistics zapewnia statystyki siły roboczej, współczynniki uczestnictwa w siłach pracy i ludności cywilnej nonkluzyjności według wieku, płci, rasy i grup etnicznych w Stany Zjednoczone.
Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
Zestawy danych programu US Local Area Unemployment Statistics (Lokalne statystyki bezrobocia w Stanach Zjednoczonych) dostarczają miesięcznych i rocznych danych dotyczących zatrudnienia, bezrobocia i zasobu siły roboczej w poszczególnych regionach i okręgach spisowych, stanach, hrabstwach, obszarach metropolitalnych i wielu miastach w Stanach Zjednoczonych.
Wskaźnik cen konsumpcyjnych (CPI) mierzy średnią zmianę cen w czasie płaconych przez konsumentów miejskich dla koszyka rynkowego towarów i usług konsumpcyjnych.
Populacja USA według płci i rasy dla każdego hrabstwa USA, pochodzącego z 2000 i 2010 decennial Census. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Populacja USA według płci i rasy dla każdego amerykańskiego kodu pocztowego, pochodzi z 2010 decennial Census. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Bostonie. Ten zestaw danych jest przechowywany w formacie Parquet i otrzymuje codzienne aktualizacje.
Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Chicago. Ten zestaw danych jest przechowywany w formacie Parquet i otrzymuje codzienne aktualizacje.
Ten zestaw danych zawiera wszystkie zgłoszenia na numer 311 w Nowym Jorku od roku 2010. Ten zestaw danych jest przechowywany w formacie Parquet i otrzymuje codzienne aktualizacje.
Zestaw danych Diabetes (Cukrzyca) ma 442 próbki z 10 funkcjami, dzięki czemu doskonale nadaje się do rozpoczęcia korzystania z algorytmów uczenia maszynowego.
Ten zestaw danych pochodzi z zestawu danych OJ Firmy Dominick i zawiera dodatkowe symulowane dane, a celem jest zapewnienie zestawu danych, który ułatwia jednoczesne trenowanie tysięcy modeli w usłudze Azure Machine Learning.
Baza danych napisanych odręcznie cyfr MNIST obejmuje zestaw treningowy zawierający 60 000 przykładów oraz zestaw testowy zawierający 10 000 przykładów. Cyfry są znormalizowane rozmiarem i wyśrodkowane w obrazie o stałym rozmiarze.
Microsoft News Dataset (MIND) to zestaw danych na dużą skalę na potrzeby badań rekomendacji dotyczących wiadomości. Służy jako zestaw danych porównawczych dla rekomendacji dotyczących wiadomości i ułatwia badania w systemach rekomendacji dotyczących wiadomości i rekomendacji.