Udostępnij za pośrednictwem


Przykładowe notesy Jupyter pokazują, jak wzbogacić dane za pomocą otwartych zestawów danych

Przykładowe notesy Jupyter dla zestawów danych Usługi Azure Open wyjaśniają, jak ładować otwarte zestawy danych i używać ich do wzbogacania danych demonstracyjnych. Techniki obejmują używanie platform Apache Spark i Pandas do przetwarzania danych.

Ważne

Podczas pracy w środowisku nienależący do platformy Spark funkcja Open Datasets umożliwia pobieranie tylko jednego miesiąca danych w danym czasie z określonymi klasami, aby uniknąć problemów z funkcją MemoryError w przypadku dużych zestawów danych.

Ładowanie danych zintegrowanej bazy danych surface (ISD) NOAA

Notes opis
Ładowanie danych o pogodzie w ostatnim miesiącu do ramki danych Biblioteki Pandas Dowiedz się, jak załadować historyczne dane pogodowe do ulubionej ramki danych biblioteki Pandas.
Ładowanie danych o pogodzie w ostatnim miesiącu do ramki danych platformy Spark Dowiedz się, jak załadować historyczne dane pogodowe do ulubionej ramki danych platformy Spark.

Dołączanie danych demonstracyjnych przy użyciu danych ISD NOAA

Notes opis
Dołączanie danych demonstracyjnych przy użyciu danych pogodowych — Pandas Dołącz do miesięcznego demonstracyjnego zestawu danych lokalizacji czujników z odczytami pogody w ramce danych biblioteki Pandas.
Dołączanie danych demonstracyjnych przy użyciu danych pogodowych — Spark Dołącz do pokazowego zestawu danych lokalizacji czujników z odczytami pogody w ramce danych platformy Spark.

Dołączanie danych taksówek w NOWYM Jorku przy użyciu danych ISD NOAA

Notes opis
Dane podróży taksówką wzbogacone o dane pogodowe — Pandas Załaduj dane zielonych taksówek NYC (ponad miesiąc) i wzbogacij je danymi o pogodzie w ramce danych biblioteki Pandas. W tym przykładzie metoda zastępuje metodę get_pandas_limit i równoważy wydajność ładowania danych przy użyciu ilości danych.
Dane dotyczące przejazdów taksówką wzbogacone danymi o pogodzie — Spark Załaduj dane zielonych taksówek w Nowym Jorku i wzbogać je o dane pogodowe w ramce danych platformy Spark.

Następne kroki