演習 - Azure Notebooks を作成してデータをインポートする

完了

最初に、新しい Azure ノートブックを作成します。 Azure ノートブックは、関連するノートブックをグループ化することが主な目的である、プロジェクトに含まれています。 このユニットでは、新しいプロジェクトを作成してから、その中にノートブックを作成します。

  1. ブラウザーで https://notebooks.azure.com に移動します

  2. Microsoft アカウントを使用してサインインします。

  3. ページの上部にあるメニューで [マイ プロジェクト] をクリックします。

  4. [マイ プロジェクト] ページの上部にある [+ 新しいプロジェクト] ボタンをクリックします。

  5. "ML Notebooks" または同様の名前の新しいプロジェクトを作成します。 必要に応じて、[パブリック] ボックスをオフにしてもかまいませんが、プロジェクトをパブリックにすることで、その中のノートブックを、リンク、ソーシャルメディア、または電子メールを介して他のユーザーと共有できます。 どちらにすればよいかわからない場合は、プロジェクトを後で簡単にパブリックまたはプライベートに変更することができます。

    プロジェクトの作成。

    "プロジェクトの作成"

  6. [+ 新規] をクリックし、メニューから [ノートブック] を選んで、プロジェクトにノートブックを追加します。

    ノートブックをプロジェクトに追加する。

    ノートブックをプロジェクトに追加する

  7. ノートブックに "On-Time Flight Arrivals.ipynb" などの名前を付け、言語として [Python 3.6] を選択します。 これにより、Python コードを実行するための Python 3.6 カーネルを使用したノートブックが作成されます。 Azure ノートブックの長所の 1 つは、選択するカーネルによってさまざまな言語を使用できることです。

    ノートブックを作成する。

    ノートブックの作成

    ちなみに、.ipynb ファイル名拡張子は、"IPython notebook" の略です。Jupyter Notebook は、当初は IPython (対話型 Python) ノートブックと呼ばれており、Python のみをプログラミング言語としてサポートしていました。 Jupyter という名前は、Jupyter でサポートされるコア プログラミング言語である Julia、Python、R を組み合わせたものです。

  8. ノートブックをクリックして、編集のために開きます。

    ノートブックを開く。

    ノートブックを開く

Azure Notebooks を使用するときに、追加のプロジェクトとノートブックを作成できます。 ノートブックを最初から作成することも、既存のノートブックをアップロードすることもできます。

Jupyter ノートブックは非常にインタラクティブであり、これに実行可能なコードを含めることができるため、データを操作し、そこから予測モデルを構築するための完璧なプラットフォームが提供されます。

  1. ノートブックの最初のセルに次のコマンドを入力します。

    !curl https://topics.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
    

    ヒント

    curl は Bash コマンドです。 Jupyter ノートブックで Bash コマンドを実行できます。その場合、前に感嘆符を付けます。 このコマンドにより、Azure BLOB ストレージから CSV ファイルがダウンロードされ、flightdata.csv という名前を使って保存されます。

  2. [実行] ボタンをクリックし、curl コマンドを実行します。

    データセットのインポート。

    データセットのインポート

  3. ノートブックの 2 番目のセルに、以下の Python コードを入力して flightdata.csv を読み込み、そこから Pandas DataFrame を作成し、最初の 5 行を表示します。

    import pandas as pd
    
    df = pd.read_csv('flightdata.csv')
    df.head()
    
  4. [実行] ボタンをクリックし、コードを実行します。 出力が次のようになっていることを確認します。

    データセットの読み込み。

    データセットの読み込み

    作成した DataFrame には、主要な米国航空会社の定刻到着情報が含まれています。 11,000 個を超える行と 26 個の列があります (DataFrame の head 関数では最初の 5 行のみが返されるため、出力は "5 行" となります)。各行は 1 つのフライトを表し、出発地、目的地、予定到着時刻、フライトが定刻に到着したか、遅れたかなどの情報が含まれます。 データについては、このモジュールのもう少し後でより詳しく見ていきます。

  5. [ファイル] ->[Save and Checkpoint] (保存とチェックポイント) コマンドを使用して、ノートブックを保存します。

水平スクロール バーを使用して左右にスクロールし、データセット内のすべての列を表示します。 データセットにはどれくらいの数の列が含まれるのでしょうか。 各列名から、その列が何を表しているのかを推測できますか?