Co to są zestawy danych Usługi Azure Open i jak można ich używać?
Zestawy danych Platformy Azure Open to wyselekcjonowane publiczne zestawy danych, które można dodać do funkcji specyficznych dla scenariusza do rozwiązań uczenia maszynowego, aby uzyskać dokładniejsze modele. Otwarte zestawy danych są dostępne w chmurze na platformie Microsoft Azure. Są one zintegrowane z usługą Azure Machine Learning i łatwo dostępne dla usług Azure Databricks i Machine Learning Studio (wersja klasyczna). Dostęp do zestawów danych można również uzyskać za pośrednictwem interfejsów API i można ich używać w innych produktach, takich jak Power BI i Azure Data Factory.
Zestawy danych obejmują dane z domeny publicznej dotyczące pogody, spisu ludności, świąt, bezpieczeństwa publicznego i lokalizacji, które ułatwiają trenowanie modeli uczenia maszynowego i wzbogacanie rozwiązań predykcyjnych. Publiczne zestawy danych można również udostępniać za pomocą usługi Azure Open Datasets.
Wyselekcjonowane, przygotowane zestawy danych
Wyselekcjonowane otwarte publiczne zestawy danych w usłudze Azure Open Datasets są zoptymalizowane pod kątem użycia w przepływach pracy uczenia maszynowego.
Aby uzyskać więcej informacji na temat dostępnych zestawów danych, odwiedź zasób katalogu azure Open Datasets.
Analitycy danych często spędzają większość czasu na czyszczeniu i przygotowywaniu danych do zaawansowanej analizy. Aby zaoszczędzić czas, otwórz zestawy danych są kopiowane do chmury platformy Azure, a następnie wstępnie przetworzone. W regularnych odstępach czasu dane są pobierane ze źródeł — na przykład przez połączenie FTP z National Oceanic and Atmospheric Administration (NOAA). Następnie dane są analizowane w formacie ustrukturyzowanym, a następnie wzbogacone zgodnie z potrzebami, z funkcjami takimi jak kod pocztowy lub lokalizacje najbliższych stacji pogodowych.
Zestawy danych są współgospodarzem z obliczeniami w chmurze na platformie Azure, aby ułatwić dostęp i manipulację.
Oto przykłady dostępnych zestawów danych:
Dane o pogodzie
Zestaw danych | Notesy | opis |
---|---|---|
Dane zintegrowanej powierzchni NOAA (ISD) | Azure Notebooks Azure Databricks |
Dane o pogodzie godzinowej z NOAA z najlepszym pokryciem przestrzennym w Ameryka Północna, Europie, Australii i częściach Azji. Zaktualizowano codziennie. |
System globalnej prognozy NOAA (GFS) | Azure Notebooks Azure Databricks |
15-dniowe dane prognozy pogody w USA z NOAA. Zaktualizowano codziennie. |
Dane kalendarza
Zestaw danych | Notesy | opis |
---|---|---|
Święta | Azure Notebooks Azure Databricks |
Dane dotyczące świąt publicznych na całym świecie obejmujące 41 krajów lub regionów od 1970 do 2099 roku. Obejmuje kraj/region i to, czy większość osób zapłaciła czas wolny. |
Dostęp do zestawów danych
Za pomocą konta platformy Azure możesz uzyskać dostęp do otwartych zestawów danych za pośrednictwem kodu lub interfejsu usługi platformy Azure. Dane są przenoszone wraz z zasobami obliczeniowymi w chmurze platformy Azure do użycia w rozwiązaniach uczenia maszynowego.
Platforma Open Datasets jest dostępna za pośrednictwem interfejsu użytkownika usługi Azure Machine Learning i zestawu SDK. Otwarte zestawy danych udostępniają również notesy usługi Azure Notebooks i Azure Databricks, które mogą łączyć dane z usługami Azure Machine Learning i Azure Databricks. Do platformy Datasets można także uzyskać dostęp za pośrednictwem zestawu SDK języka Python.
Do uzyskania dostępu do platformy Open Datasets nie jest jednak potrzebne konto platformy Azure; możesz do niej uzyskać dostęp z dowolnego środowiska Python z platformą Spark lub bez niej.
Żądanie lub współtworzenie zestawów danych
Jeśli nie możesz znaleźć żądanych danych, wyślij nam wiadomość e-mail na adres , aby poprosić o zestaw danych lub współtworzyć zestaw danych.