Udostępnij za pośrednictwem


Co to są zestawy danych Usługi Azure Open i jak można ich używać?

Zestawy danych Platformy Azure Open to wyselekcjonowane publiczne zestawy danych, które można dodać do funkcji specyficznych dla scenariusza do rozwiązań uczenia maszynowego, aby uzyskać dokładniejsze modele. Otwarte zestawy danych są dostępne w chmurze na platformie Microsoft Azure. Są one zintegrowane z usługą Azure Machine Learning i łatwo dostępne dla usług Azure Databricks i Machine Learning Studio (wersja klasyczna). Dostęp do zestawów danych można również uzyskać za pośrednictwem interfejsów API i można ich używać w innych produktach, takich jak Power BI i Azure Data Factory.

Zestawy danych obejmują dane z domeny publicznej dotyczące pogody, spisu ludności, świąt, bezpieczeństwa publicznego i lokalizacji, które ułatwiają trenowanie modeli uczenia maszynowego i wzbogacanie rozwiązań predykcyjnych. Publiczne zestawy danych można również udostępniać za pomocą usługi Azure Open Datasets.

Diagram przedstawiający bloki konstrukcyjne usługi Azure Open Datasets.

Wyselekcjonowane, przygotowane zestawy danych

Wyselekcjonowane otwarte publiczne zestawy danych w usłudze Azure Open Datasets są zoptymalizowane pod kątem użycia w przepływach pracy uczenia maszynowego.

Aby uzyskać więcej informacji na temat dostępnych zestawów danych, odwiedź zasób katalogu azure Open Datasets.

Analitycy danych często spędzają większość czasu na czyszczeniu i przygotowywaniu danych do zaawansowanej analizy. Aby zaoszczędzić czas, otwórz zestawy danych są kopiowane do chmury platformy Azure, a następnie wstępnie przetworzone. W regularnych odstępach czasu dane są pobierane ze źródeł — na przykład przez połączenie FTP z National Oceanic and Atmospheric Administration (NOAA). Następnie dane są analizowane w formacie ustrukturyzowanym, a następnie wzbogacone zgodnie z potrzebami, z funkcjami takimi jak kod pocztowy lub lokalizacje najbliższych stacji pogodowych.

Zestawy danych są współgospodarzem z obliczeniami w chmurze na platformie Azure, aby ułatwić dostęp i manipulację.

Oto przykłady dostępnych zestawów danych:

Dane o pogodzie

Zestaw danych Notesy opis
Dane zintegrowanej powierzchni NOAA (ISD) Azure Notebooks
Azure Databricks
Dane o pogodzie godzinowej z NOAA z najlepszym pokryciem przestrzennym w Ameryka Północna, Europie, Australii i częściach Azji. Zaktualizowano codziennie.
System globalnej prognozy NOAA (GFS) Azure Notebooks
Azure Databricks
15-dniowe dane prognozy pogody w USA z NOAA. Zaktualizowano codziennie.

Dane kalendarza

Zestaw danych Notesy opis
Święta Azure Notebooks
Azure Databricks
Dane dotyczące świąt publicznych na całym świecie obejmujące 41 krajów lub regionów od 1970 do 2099 roku. Obejmuje kraj/region i to, czy większość osób zapłaciła czas wolny.

Dostęp do zestawów danych

Za pomocą konta platformy Azure możesz uzyskać dostęp do otwartych zestawów danych za pośrednictwem kodu lub interfejsu usługi platformy Azure. Dane są przenoszone wraz z zasobami obliczeniowymi w chmurze platformy Azure do użycia w rozwiązaniach uczenia maszynowego.

Platforma Open Datasets jest dostępna za pośrednictwem interfejsu użytkownika usługi Azure Machine Learning i zestawu SDK. Otwarte zestawy danych udostępniają również notesy usługi Azure Notebooks i Azure Databricks, które mogą łączyć dane z usługami Azure Machine Learning i Azure Databricks. Do platformy Datasets można także uzyskać dostęp za pośrednictwem zestawu SDK języka Python.

Do uzyskania dostępu do platformy Open Datasets nie jest jednak potrzebne konto platformy Azure; możesz do niej uzyskać dostęp z dowolnego środowiska Python z platformą Spark lub bez niej.

Żądanie lub współtworzenie zestawów danych

Jeśli nie możesz znaleźć żądanych danych, wyślij nam wiadomość e-mail na adres , aby poprosić o zestaw danych lub współtworzyć zestaw danych.

Następne kroki