Wat zijn Azure Open Datasets en hoe kunt u ze gebruiken?
Azure Open Datasets zijn gecureerde openbare gegevenssets die u kunt toevoegen aan scenariospecifieke functies voor machine learning-oplossingen, voor nauwkeurigere modellen. Open Datasets zijn beschikbaar in de cloud, in Microsoft Azure. Ze zijn geïntegreerd in Azure Machine Learning en zijn direct beschikbaar voor Azure Databricks en Machine Learning Studio (klassiek). U hebt ook toegang tot de gegevenssets via API's en u kunt ze gebruiken in andere producten, zoals Power BI en Azure Data Factory.
Gegevenssets omvatten gegevens uit het openbare domein voor weer, tellingen, vakanties, publieke veiligheid en locaties die u helpen machine learning-modellen te trainen en voorspellende oplossingen te verrijken. U kunt uw openbare gegevenssets ook delen via Azure Open Datasets.
Gecureerde, voorbereide gegevenssets
Gecureerde openbare gegevenssets in Azure Open Datasets zijn geoptimaliseerd voor gebruik in machine learning-workflows.
Ga naar de Azure Open Datasets Catalog-resource voor meer informatie over de beschikbare gegevenssets.
Gegevenswetenschappers besteden vaak veel tijd aan gegevensopschoning en -voorbereiding voor geavanceerde analyses. Als u tijd wilt besparen, worden gegevenssets gekopieerd naar de Azure-cloud en vervolgens vooraf verwerkt. Met regelmatige tussenpozen worden gegevens opgehaald uit de bronnen, bijvoorbeeld door een FTP-verbinding met de National Oceanic and Atmospheric Administration (NOAA). Vervolgens worden de gegevens geparseerd in een gestructureerde indeling en vervolgens verrijkt naar behoefte, met functies zoals postcode of de locaties van de dichtstbijzijnde weerstations.
Gegevenssets worden samen gehost met cloud-rekenkracht in Azure, om toegang en manipulatie eenvoudiger te maken.
Hier volgen voorbeelden van beschikbare gegevenssets:
Weergegevens
Gegevensset | Notebooks | Beschrijving |
---|---|---|
NOAA Integrated Surface Data (ISD) | Azure Notebooks Azure Databricks |
Wereldwijde weersgegevens per uur van NOAA met de beste ruimtelijke dekking in Noord-Amerika, Europa, Australië en delen van Azië. Dagelijks bijgewerkt. |
NOAA Global Forecast System (GFS) | Azure Notebooks Azure Databricks |
Elk uur weersvoorspellingsgegevens in de VS van NOA voor de komende 15 dagen. Dagelijks bijgewerkt. |
Kalendergegevens
Gegevensset | Notebooks | Beschrijving |
---|---|---|
Feestdagen | Azure Notebooks Azure Databricks |
Wereldwijde gegevens over openbare feestdagen, met daarin 41 landen of regio's van 1970 tot 2099. Omvat land/regio en of de meeste mensen betaald verlof hebben. |
Gegevenssets openen
Met een Azure-account hebt u toegang tot geopende gegevenssets via code of via de Azure-service-interface. De gegevens worden gekoppeld aan Azure Cloud Compute-resources voor gebruik in uw machine learning-oplossingen.
Open Datasets zijn beschikbaar via de gebruikersinterface van Azure Machine Learning en SDK. Open Datasets bieden ook Azure Notebooks en Azure Databricks-notebooks waarmee gegevens kunnen worden verbonden met Azure Machine Learning en Azure Databricks. Gegevenssets kunnen ook worden geopend via een Python SDK.
U hebt echter geen Azure-account nodig om toegang te krijgen tot Open Datasets. U kunt toegang krijgen vanuit elke Python-omgeving, met of zonder Spark.
Gegevenssets aanvragen of bijdragen
Als u de gegevens niet kunt vinden die u zoekt, kunt u ons een mail sturen om een gegevensset aan te vragen of een gegevensset bij te dragen.