演習 - Azure Notebooks を作成してデータをインポートする
最初に、新しい Azure ノートブックを作成します。 Azure ノートブックは、関連するノートブックをグループ化することが主な目的である、プロジェクトに含まれています。 このユニットでは、新しいプロジェクトを作成してから、その中にノートブックを作成します。
ブラウザーで https://notebooks.azure.com に移動します
Microsoft アカウントを使用してサインインします。
ページの上部にあるメニューで [マイ プロジェクト] をクリックします。
[マイ プロジェクト] ページの上部にある [+ 新しいプロジェクト] ボタンをクリックします。
"ML Notebooks" または同様の名前の新しいプロジェクトを作成します。 必要に応じて、[パブリック] ボックスをオフにしてもかまいませんが、プロジェクトをパブリックにすることで、その中のノートブックを、リンク、ソーシャルメディア、または電子メールを介して他のユーザーと共有できます。 どちらにすればよいかわからない場合は、プロジェクトを後で簡単にパブリックまたはプライベートに変更することができます。
"プロジェクトの作成"
[+ 新規] をクリックし、メニューから [ノートブック] を選んで、プロジェクトにノートブックを追加します。
ノートブックをプロジェクトに追加する
ノートブックに "On-Time Flight Arrivals.ipynb" などの名前を付け、言語として [Python 3.6] を選択します。 これにより、Python コードを実行するための Python 3.6 カーネルを使用したノートブックが作成されます。 Azure ノートブックの長所の 1 つは、選択するカーネルによってさまざまな言語を使用できることです。
ノートブックの作成
ちなみに、.ipynb ファイル名拡張子は、"IPython notebook" の略です。Jupyter Notebook は、当初は IPython (対話型 Python) ノートブックと呼ばれており、Python のみをプログラミング言語としてサポートしていました。 Jupyter という名前は、Jupyter でサポートされるコア プログラミング言語である Julia、Python、R を組み合わせたものです。
ノートブックをクリックして、編集のために開きます。
ノートブックを開く
Azure Notebooks を使用するときに、追加のプロジェクトとノートブックを作成できます。 ノートブックを最初から作成することも、既存のノートブックをアップロードすることもできます。
Jupyter ノートブックは非常にインタラクティブであり、これに実行可能なコードを含めることができるため、データを操作し、そこから予測モデルを構築するための完璧なプラットフォームが提供されます。
ノートブックの最初のセルに次のコマンドを入力します。
!curl https://topics.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
ヒント
curl
は Bash コマンドです。 Jupyter ノートブックで Bash コマンドを実行できます。その場合、前に感嘆符を付けます。 このコマンドにより、Azure BLOB ストレージから CSV ファイルがダウンロードされ、flightdata.csv という名前を使って保存されます。[実行] ボタンをクリックし、
curl
コマンドを実行します。データセットのインポート
ノートブックの 2 番目のセルに、以下の Python コードを入力して flightdata.csv を読み込み、そこから Pandas DataFrame を作成し、最初の 5 行を表示します。
import pandas as pd df = pd.read_csv('flightdata.csv') df.head()
[実行] ボタンをクリックし、コードを実行します。 出力が次のようになっていることを確認します。
データセットの読み込み
作成した DataFrame には、主要な米国航空会社の定刻到着情報が含まれています。 11,000 個を超える行と 26 個の列があります (DataFrame の head 関数では最初の 5 行のみが返されるため、出力は "5 行" となります)。各行は 1 つのフライトを表し、出発地、目的地、予定到着時刻、フライトが定刻に到着したか、遅れたかなどの情報が含まれます。 データについては、このモジュールのもう少し後でより詳しく見ていきます。
[ファイル] ->[Save and Checkpoint] (保存とチェックポイント) コマンドを使用して、ノートブックを保存します。
水平スクロール バーを使用して左右にスクロールし、データセット内のすべての列を表示します。 データセットにはどれくらいの数の列が含まれるのでしょうか。 各列名から、その列が何を表しているのかを推測できますか?