Sdílet prostřednictvím


Ukázkové poznámkové bloky Jupyter ukazují, jak rozšířit data o Open Datasets

Příklad poznámkových bloků Jupyter pro Azure Open Datasets vysvětluje, jak načíst otevřené datové sady a jak je použít k obohacení ukázkových dat. Mezi techniky patří použití Apache Sparku a Pandas ke zpracování dat.

Důležité

Při práci v prostředí mimo Spark umožňuje Open Datasets stahování jenom jednoho měsíce dat najednou s určitými třídami, aby se zabránilo problémům s chybou MemoryError u velkých datových sad.

Načtení dat integrované databáze Surface (ISD) NOAA

Poznámkový blok Popis
Načtení posledních měsíců dat o počasí do datového rámce Pandas Zjistěte, jak načíst historická data o počasí do oblíbeného datového rámce Pandas.
Načtení posledních měsíců dat o počasí do datového rámce Sparku Zjistěte, jak načíst historická data o počasí do oblíbeného datového rámce Sparku.

Spojení ukázkových dat s daty NOAA ISD

Poznámkový blok Popis
Připojení ukázkových dat s daty o počasí – Pandas Připojte se k ukázkové datové sadě s jednoměsíční ukázkovou datovou sadou umístění snímačů se čtením počasí v datovém rámci Pandas.
Spojení ukázkových dat s daty o počasí – Spark Připojte ukázkovou datovou sadu umístění snímačů se čtením počasí v datovém rámci Sparku.

Připojení k datům taxislužby NYC s daty NOAA ISD

Poznámkový blok Popis
Data o jízdě taxíkem obohacená o data o počasí - Pandas Načtěte data zelené taxi NYC (více než jeden měsíc) a obohatit je o data o počasí v datovém rámci Pandas. Tento příklad přepíše metodu get_pandas_limit a vyrovnává výkon zatížení dat s množstvím dat.
Data o jízdě taxíkem obohacená o data o počasí – Spark Načtěte data zelené taxislužby NYC a v datovém rámci Sparku je obohacujte o data o počasí.

Další kroky