Los cuadernos de Jupyter de ejemplo muestran cómo enriquecer los datos con Open Datasets
Los cuadernos de Jupyter de ejemplo para Azure Open Datasets explican cómo cargar conjuntos de datos abiertos y usarlos para enriquecer los datos de demostración. Las técnicas incluyen el uso de Apache Spark y Pandas para procesar los datos.
Importante
Al trabajar en un entorno distinto de Spark, Open Datasets permite descargas de un solo mes de datos a la vez con determinadas clases, para evitar problemas de MemoryError con grandes conjuntos de datos.
Cargar datos de Integrated Surface Database (ISD) de NOAA
Notebook | Descripción |
---|---|
Cargar un mes reciente de datos meteorológicos en un dataframe de Pandas | Obtenga información sobre cómo cargar los datos meteorológicos históricos en su dataframe de Pandas favorito. |
Cargar un mes reciente de datos meteorológicos en un dataframe de Spark | Obtenga información sobre cómo cargar los datos meteorológicos históricos en su dataframe de Spark favorito. |
Unir datos de demostración con datos de ISD de NOAA
Notebook | Descripción |
---|---|
Combinar datos de demostración con datos meteorológicos: Pandas | Una un conjunto de datos de demostración de un mes de ubicaciones de sensores con lecturas meteorológicas en un dataframe de Pandas. |
Unir datos de demostración con datos meteorológicos: Spark | Una un conjunto de datos de demostración de ubicaciones de sensores con lecturas meteorológicas en un dataframe de Spark. |
Unir datos de taxis de Nueva York con datos de ISD de NOAA
Notebook | Descripción |
---|---|
Datos de viajes de taxis, enriquecidos con datos meteorológicos: Pandas | Cargue datos de taxis verdes de la ciudad de Nueva York (más de un mes) y enriquézcalos con datos meteorológicos en un dataframe de Pandas. Este ejemplo reemplaza el método get_pandas_limit y equilibra el rendimiento de carga de datos con la cantidad de datos. |
Datos de viajes de taxis enriquecidos con datos meteorológicos: Spark | Cargue datos de taxis verdes de la ciudad de Nueva York y enriquézcalos con datos meteorológicos en un dataframe de Spark. |
Pasos siguientes
- Tutorial: Regression modeling with automated machine learning and an open dataset (Tutorial: Modelado de regresión con aprendizaje automático automatizado y un conjunto de datos abierto)
- SDK de Python para Open Datasets
- Catálogo de Azure Open Datasets
- Creación de conjuntos de datos de Azure Machine Learning a partir de Open Dataset