Was ist Azure Open Datasets, und wie können Sie dies verwenden?
Azure Open Datasets sind kuratierte öffentliche Datasets, die Sie szenariospezifischen Features zu Machine Learning-Lösungen hinzufügen können, um genauere Modelle zu erhalten. Offene Datasets sind in der Cloud in Microsoft Azure verfügbar. Sie sind in Azure Machine Learning integriert und für Azure Databricks und Machine Learning Studio (klassisch) verfügbar. Sie können auch über APIs auf die Datasets zugreifen und sie in anderen Produkten wie Power BI und Azure Data Factory verwenden.
Die Datasets umfassen gemeinfreie Daten für Wetter, Volkszählungen, Feiertage, öffentliche Sicherheit und Orte, mit denen Sie Machine Learning-Modelle trainieren und Vorhersagelösungen anreichern können. Sie können über öffentliche Azure-Datasets auch Ihre eigenen öffentlichen Datasets freigeben.
Kuratierte, vorbereitete Datasets
Die kuratierten offenen und öffentlichen Datasets, aus denen sich die öffentlichen Azure-Datasets zusammensetzen, sind für den Gebrauch in Workflows mit maschinellem Lernen optimiert.
Weitere Informationen zu den verfügbaren Datasets finden Sie in der Azure Open Datasets Catalog-Ressource.
Data Science-Experten verbringen oft den Großteil ihrer Zeit mit dem Bereinigen und Vorbereiten von Daten für komplexe Analysen. Um Zeit zu sparen, werden geöffnete Datasets in die Azure-Cloud kopiert und dann vorverarbeitet. In regelmäßigen Abständen werden Daten aus den Quellen abgerufen, z. B. über eine FTP-Verbindung mit der National Oceanic and Atmospheric Administration (NOAA). Anschließend werden die Daten in einem strukturierten Format analysiert und wenn nötig mit Merkmalen wie Postleitzahlen oder dem Standort der nächsten Wetterstation angereichert.
Datasets werden in Azure gemeinsam mit Compute gehostet, um den Zugriff und die Bearbeitung zu vereinfachen.
Hier sind Beispiele für verfügbare Datasets:
Wetterdaten
Dataset | Notebooks | BESCHREIBUNG |
---|---|---|
Integrierte NOAA-Oberflächendaten (ISD) | Azure Notebooks Azure Databricks |
Weltweite stündliche Wetterdaten von NOAA mit der besten räumlichen Abdeckung in Nordamerika, Europa, Australien und Teilen von Asien. Täglich aktualisiert. |
NOAA Global Forecast System (GFS) | Azure Notebooks Azure Databricks |
Stündliche US-Wettervorhersagedaten von NOAA für 15 Tage. Täglich aktualisiert. |
Kalenderdaten
Dataset | Notebooks | BESCHREIBUNG |
---|---|---|
Gesetzliche Feiertage | Azure Notebooks Azure Databricks |
Weltweite Feiertagsdaten für 41 Länder oder Regionen von 1970 bis 2099. Enthält Länder bzw. Regionen und die Angabe, ob die meisten Einwohner bezahlte Freizeit haben. |
Zugriff auf Datasets
Mit einem Azure-Konto können Sie über Code oder über die Azure-Dienstschnittstelle auf öffentliche Datasets zugreifen. Die Daten werden in Azure gemeinsam mit Compute gehostet, damit Sie sie in Ihren Machine Learning-Lösungen verwenden können.
Open Datasets ist über Azure Machine Learning-Benutzeroberfläche und SDK verfügbar. Open Datasets bieten auch Azure Notebooks und Azure Databricks-Notebooks, die Daten mit Azure Machine Learning und Azure Databricks verbinden können. Auch über ein Python-SDK kann auf die Datasets zugegriffen werden.
Sie benötigen jedoch kein Azure-Konto, um auf Open Datasets zuzugreifen. Der Zugriff darauf ist in jeder Python-Umgebung mit oder ohne Spark möglich.
Anfordern von Datasets oder Beitragen zu diesen
Wenn Sie die gewünschten Daten nicht finden können, senden Sie uns eine E-Mail zum Anfordern eines Datasets oder Beitragen eines Datasets.