Partager via


Qu’est-ce qu’Azure Open Datasets et comment l’utiliser ?

Azure Open Datasets propose des jeux de données publics organisés que vous pouvez ajouter à des fonctionnalités spécifiques à des scénarios à des solutions de Machine Learning afin d’obtenir des modèles plus précis. Les Open Datasets sont disponibles dans le cloud, sur Microsoft Azure. Il sont intégrés à Azure Machine Learning et sont facilement disponibles pour Azure Databricks et Machine Learning Studio (classique). Vous pouvez également accéder aux jeux de données via des API et les utiliser dans d’autres produits, tels que Power BI et Azure Data Factory.

Les jeux de données englobent des données du domaine public portant sur la météo, le recensement, les jours fériés, la sécurité publique et la localisation et vous aident à former des modèles Machine Learning et à enrichir des solutions prédictives. Vous pouvez également partager vos jeux de données publics sur Azure Open Datasets.

Diagramme montrant les blocs de construction du service Azure Open Datasets.

Jeux de données organisés et préparés

Les jeux de données publics ouverts et organisés contenus dans Azure Open Datasets sont optimisés pour être utilisés dans les flux de travail de Machine Learning.

Pour plus d’informations sur les jeux de données disponibles, consultez la ressource de catalogue Azure Open Datasets.

Les scientifiques des données passent souvent la majeure partie de leur temps à nettoyer et à préparer les données pour les analyses avancées. Afin de vous faire gagner du temps, les jeux de données ouverts sont copiés dans le cloud Azure et prétraités. À intervalles réguliers, les données sont extraites des sources, par exemple via une connexion FTP à la NOAA (National Oceanic and Atmospheric Administration). Ensuite, les données sont analysées dans un format structuré, puis enrichies en fonction des besoins, avec des fonctionnalités comme le code postal ou l’emplacement des stations météorologiques les plus proches.

Les jeux de données sont co-hébergés avec le calcul cloud dans Azure, ce qui facilite l’accès et la manipulation.

Voici des exemples de jeux de données disponibles :

Données météorologiques

Dataset Notebooks Description
Données de surface intégrées (DSI) de la NOAA Azure Notebooks
Azure Databricks
Données météorologiques horaires mondiales de la NOAA offrant la meilleure couverture spatiale pour l'Amérique du Nord, l'Europe, l'Australie et certaines parties de l'Asie. Mises à jour quotidiennement.
Global Forecast System (GFS) de la NOAA Azure Notebooks
Azure Databricks
Données de prévisions météorologiques horaires concernant les États-Unis, sur 15 jours, fournies par la NOAA. Mises à jour quotidiennement.

Données de calendrier

Dataset Notebooks Description
Jours fériés Azure Notebooks
Azure Databricks
Données internationales portant sur les jours fériés et couvrant 41 nations ou régions, de 1970 à 2099. Désigne le pays/région et indique si la majorité des habitants bénéficient de congés payés.

Accès aux jeux de données

Grâce à un compte Azure, vous pouvez accéder aux jeux de données ouverts à l’aide de code ou via l’interface de service Azure. Les données sont colocalisées avec les ressources de calcul cloud Azure pour être utilisées dans vos solutions de Machine Learning.

Open Datasets sont disponibles via l’interface utilisateur et le kit de développement logiciel (SDK) Azure Machine Learning. les Open Datasets fournissent aussi des notebooks Azure Notebooks et Azure Databricks qui peuvent connecter les données à Azure Machine Learning et à Azure Databricks. Les jeux de données sont également accessibles via un kit de développement logiciel (SDK) Python.

Toutefois, aucun compte Azure n’est nécessaire pour accéder à Open Datasets. Vous pouvez y accéder dans n’importe quel environnement Python, avec ou sans Spark.

Demander ou contribuer à la création des jeux de données

Si vous ne trouvez pas les données que vous recherchez, envoyez-nous un e-mail pour demander un jeu de données ou contribuer à la création d'un jeu de données.

Étapes suivantes