Ukázkové poznámkové bloky Jupyter ukazují, jak rozšířit data o Open Datasets

Článek
09/01/2024

Příklad poznámkových bloků Jupyter pro Azure Open Datasets vysvětluje, jak načíst otevřené datové sady a jak je použít k obohacení ukázkových dat. Mezi techniky patří použití Apache Sparku a Pandas ke zpracování dat.

Důležité

Při práci v prostředí mimo Spark umožňuje Open Datasets stahování jenom jednoho měsíce dat najednou s určitými třídami, aby se zabránilo problémům s chybou MemoryError u velkých datových sad.

Načtení dat integrované databáze Surface (ISD) NOAA

Poznámkový blok	Popis
Načtení posledních měsíců dat o počasí do datového rámce Pandas	Zjistěte, jak načíst historická data o počasí do oblíbeného datového rámce Pandas.
Načtení posledních měsíců dat o počasí do datového rámce Sparku	Zjistěte, jak načíst historická data o počasí do oblíbeného datového rámce Sparku.

Spojení ukázkových dat s daty NOAA ISD

Poznámkový blok	Popis
Připojení ukázkových dat s daty o počasí – Pandas	Připojte se k ukázkové datové sadě s jednoměsíční ukázkovou datovou sadou umístění snímačů se čtením počasí v datovém rámci Pandas.
Spojení ukázkových dat s daty o počasí – Spark	Připojte ukázkovou datovou sadu umístění snímačů se čtením počasí v datovém rámci Sparku.

Připojení k datům taxislužby NYC s daty NOAA ISD

Poznámkový blok	Popis
Data o jízdě taxíkem obohacená o data o počasí - Pandas	Načtěte data zelené taxi NYC (více než jeden měsíc) a obohatit je o data o počasí v datovém rámci Pandas. Tento příklad přepíše metodu `get_pandas_limit` a vyrovnává výkon zatížení dat s množstvím dat.
Data o jízdě taxíkem obohacená o data o počasí – Spark	Načtěte data zelené taxislužby NYC a v datovém rámci Sparku je obohacujte o data o počasí.

Sdílet prostřednictvím

Ukázkové poznámkové bloky Jupyter ukazují, jak rozšířit data o Open Datasets

Načtení dat integrované databáze Surface (ISD) NOAA

Spojení ukázkových dat s daty NOAA ISD

Připojení k datům taxislužby NYC s daty NOAA ISD

Další kroky

Váš názor

Další materiály