Ukázkové poznámkové bloky Jupyter ukazují, jak rozšířit data o Open Datasets
Příklad poznámkových bloků Jupyter pro Azure Open Datasets vysvětluje, jak načíst otevřené datové sady a jak je použít k obohacení ukázkových dat. Mezi techniky patří použití Apache Sparku a Pandas ke zpracování dat.
Důležité
Při práci v prostředí mimo Spark umožňuje Open Datasets stahování jenom jednoho měsíce dat najednou s určitými třídami, aby se zabránilo problémům s chybou MemoryError u velkých datových sad.
Načtení dat integrované databáze Surface (ISD) NOAA
Poznámkový blok | Popis |
---|---|
Načtení posledních měsíců dat o počasí do datového rámce Pandas | Zjistěte, jak načíst historická data o počasí do oblíbeného datového rámce Pandas. |
Načtení posledních měsíců dat o počasí do datového rámce Sparku | Zjistěte, jak načíst historická data o počasí do oblíbeného datového rámce Sparku. |
Spojení ukázkových dat s daty NOAA ISD
Poznámkový blok | Popis |
---|---|
Připojení ukázkových dat s daty o počasí – Pandas | Připojte se k ukázkové datové sadě s jednoměsíční ukázkovou datovou sadou umístění snímačů se čtením počasí v datovém rámci Pandas. |
Spojení ukázkových dat s daty o počasí – Spark | Připojte ukázkovou datovou sadu umístění snímačů se čtením počasí v datovém rámci Sparku. |
Připojení k datům taxislužby NYC s daty NOAA ISD
Poznámkový blok | Popis |
---|---|
Data o jízdě taxíkem obohacená o data o počasí - Pandas | Načtěte data zelené taxi NYC (více než jeden měsíc) a obohatit je o data o počasí v datovém rámci Pandas. Tento příklad přepíše metodu get_pandas_limit a vyrovnává výkon zatížení dat s množstvím dat. |
Data o jízdě taxíkem obohacená o data o počasí – Spark | Načtěte data zelené taxislužby NYC a v datovém rámci Sparku je obohacujte o data o počasí. |