サンプル Jupyter Notebooks は、オープン データセットを使用してデータをエンリッチする方法を示します。
この Azure Open Datasets 用の Jupyter ノートブックの例では、オープン データセットを読み込んでデモ データのエンリッチに使用する方法を示します。 データを処理するための手法として、Apache Spark と Pandas を使用します。
重要
Spark 以外の環境で作業するときは、特定のクラスについて Open Datasets でダウンロードできるデータは一度に 1 か月分のみとなります。これは、大きなデータセットに伴う MemoryError の問題を回避するためです。
NOAA Integrated Surface Database (ISD) データを読み込む
ノートブック | 説明 |
---|---|
直近 1 か月の気象データを Pandas データフレームに読み込む | 過去の気象データをお気に入りの Pandas データフレームに読み込む方法について説明します。 |
直近 1 か月の気象データを Spark データフレームに読み込む | 過去の気象データをお気に入りの Spark データフレームに読み込む方法について説明します。 |
デモ データを NOAA ISD データと結合する
ノートブック | 説明 |
---|---|
デモ データと気象データを結合する - Pandas | センサー地点の 1 か月のデモ データセットを Pandas データフレームで気象測定値と結合します。 |
デモ データを気象データと結合する - Spark | センサー地点のデモ データセットを Spark データフレームの気象測定値と結合します。 |
ニューヨーク市のタクシー データを NOAA ISD データと結合する
ノートブック | 説明 |
---|---|
気象データによってエンリッチされたタクシー乗車データ - Pandas | Pandas データフレームでニューヨーク市のグリーン タクシー データ (1 か月分) を読み込み、気象データを使用してエンリッチします。 この例は、メソッド get_pandas_limit をオーバーライドして、データ読み込みパフォーマンスとデータ容量のバランスを調整します。 |
気象データによってエンリッチされたタクシー乗車データ - Spark | Spark データフレームでニューヨーク市のグリーン タクシー データを読み込み、気象データを使用してエンリッチします。 |