クイック スタート:Linux (Ubuntu) Data Science Virtual Machine を設定する
Ubuntu 20.04 Data Science Virtual Machine (DSVM) と Azure DSVM for PyTorch を起動して実行します。
前提条件
Ubuntu 20.04 Data Science Virtual Machine または Azure DSVM for PyTorch を作成するには、Azure サブスクリプションが必要です。 Azure を無料で試す。
Azure 無料アカウントでは、GPU 対応の仮想マシン (VM) SKU がサポートされません。
Linux データ サイエンス仮想マシンの作成
Ubuntu 20.04 DSVM または Azure DSVM for PyTorch のいずれかのインスタンスを作成するには、次のようにします。
Azure ポータルにアクセスします。 まだサインインしていない場合は、Azure アカウントへのサインインを求めるメッセージが表示されることがあります。
「data science virtual machine」と入力して、VM のリストを確認します。 次に [Data Science Virtual Machine- Ubuntu 20.04] または [Azure DSVM for PyTorch] を選択します。
[作成] を選択します
[仮想マシンの作成] ウィンドウで、[基本] タブに入力します。
サブスクリプション: 複数のサブスクリプションがある場合は、マシンが作成されて課金されるサブスクリプションを選択します。 そのサブスクリプションに対するリソース作成権限が必要です。
[リソース グループ] :新しいグループを作成するか、既存のグループを使用します。
[仮想マシン名]: VM の名前を入力します。 この名前は Azure portal で使用されます。
[リージョン] :最適なデータ センターを選択します。 ネットワーク アクセスを最速にするには、ほとんどのデータをホストしているか、物理的な場所に最も近くにあるデータセンターが最適な選択肢です。 詳細については、「Azure のリージョン」を参照してください。
イメージ: 既定値を変更しないでください。
サイズ: このオプションは、一般的なワークロードに適したサイズが自動的に設定されるはずです。 詳細については、Azure の Linux VM サイズに関するページを参照してください。
[認証タイプ]: 設定を迅速に行うには、[パスワード] を選択します。
Note
JupyterHub を使用する予定の場合は、JupyterHub は Secure Shell (SSH) プロトコルの公開キーを使用するように構成されていないため、必ず [パスワード] を選択します。
[ユーザー名] : 管理者のユーザー名を入力します。 このユーザー名を使用して、VM にサインインします。 Azure ユーザー名と一致する必要はありません。 大文字は使用しないでください。
重要
ユーザー名に大文字を使用すると、JupyterHub が機能しなくなり、500 内部サーバー エラーが発生します。
[パスワード]: VM へのサインインに使用する予定のパスワードを入力します。
[Review + create](レビュー + 作成) を選択します。
[確認および作成] ペインで、以下を行います。
- 入力したすべての情報が正しいことを確認します。
- [作成] を選択します
プロビジョニング プロセスには約 5 分かかります。 Azure portal で VM の状態を表示できます。
Ubuntu Data Science Virtual Machine にアクセスする
Ubuntu DSVM には、次の 4 つの方法のいずれかでアクセスできます。
- ターミナル セッションの場合の SSH
- グラフィカル セッション用の xrdp
- グラフィカル セッションの場合の X2Go
- Jupyter Notebook の場合の JupyterHub と JupyterLab
SSH
SSH 認証を使用して VM を構成した場合、テキスト シェル インターフェイスの手順 4 の [基本] セクションで作成したアカウント資格情報を使用してサインインできます。 詳細については、Linux VM への接続の詳細を参照してください。
xrdp
Linux グラフィカル セッションにアクセスするための標準ツールは xrdp です。 既定ではディストリビューションにこのツールは含まれていませんが、インストール方法についてはこちらの手順を参照してください。
X2Go
Note
テストでは、パフォーマンスは X11 転送よりも X2Go クライアントの方が優れていました。 グラフィカル デスクトップ インターフェイスでは、X2Go クライアントを使用することをお勧めします。
Linux VM は既に X2Go Server でプロビジョニングされ、クライアント接続を受け入れる準備ができています。 Linux VM のグラフィカル デスクトップに接続するには、クライアントで次の手順を実行します:
X2Goのページから、お使いのクライアント プラットフォーム向けの X2Go クライアントをダウンロードしてインストールします。
VM のパブリック IP アドレスを書き留めます。 Azure portal で、作成した VM を開いてこの情報を見つけます。
X2Go クライアントを実行します。 [新しいセッション] ウィンドウが自動的に開かない場合は、[セッション]>[新しいセッション] を選択します。
結果の構成ウィンドウで、次の構成パラメーターを入力します。
- セッション:
- ホスト: 先ほどメモした VM の IP アドレスを入力します。
- [Login](ログイン) : Linux VM 上のユーザー名を入力します。
- [SSH ポート]: 既定値の 22 のままにします。
- [セッション タイプ]: 値を [XFCE] に変更します。 現在、Linux VM でサポートされるのは XFCE デスクトップのみです。
- [メディア]: 音声のサポートとクライアントの印刷を使用しない場合は、それらをオフにできます。
- [共有フォルダー]: このタブを使用して、VM にマウントするクライアント マシン ディレクトリを追加します。
- セッション:
[OK] を選択します。
VM のサインイン ウィンドウを表示するには、X2Go ウィンドウの右側のウィンドウにあるボックスを選択します。
VM のパスワードを入力します。
[OK] を選択します。
接続プロセスを完了するには、ファイアウォールをバイパスするためのアクセス許可を X2Go に付与することが必要な場合があります。
これで、Ubuntu DSVM のグラフィカル インターフェイスが表示されます。
JupyterHub と JupyterLab
Ubuntu DSVM は、マルチユーザーの Jupyter サーバーである JupyterHub を実行します。 接続するには、次の手順に従います。
VM のパブリック IP アドレスをメモします。 この値を見つけるには、次のスクリーンショットに示すように、Azure portal で VM を検索して選択します。
ローカル コンピューターから Web ブラウザーを開き、
https://your-vm-ip:8000
に移動します。 your-vm-ip は、前にメモした IP アドレスに置き換えます。ブラウザーでウィンドウを直接開くことができなくなる場合があります。 証明書エラーが発生している可能性があります。 DSVM は、自己署名証明書を使用してセキュリティを提供します。 ほとんどのブラウザーでは、この警告の後に選択して進むことができます。 多くのブラウザーでは、Web セッション全体の証明書に関する何らかの視覚的な警告が引き続き提供されます。
ブラウザーに
ERR_EMPTY_RESPONSE
というエラー メッセージが表示された場合は、HTTPS プロトコルを明示的に使用してマシンにアクセスしていることを確認してください。 HTTP または Web アドレスだけでは、この手順では機能しません。 アドレス行にhttps://
なしで Web アドレスを入力すると、ほとんどのブラウザーでは既定でhttp
に設定されるので、このエラーが表示されます。次のスクリーンショットに示すように、VM を作成するときに使ったユーザー名とパスワードを入力してサインインします。
この段階で 500 エラーが発生した場合、ユーザー名に大文字を使用した可能性があります。 この問題は、JupyterHub と、それが使用する PAM 認証子の間の既知の相互作用です。
このページに到達できない というエラーが返される場合は、おそらくネットワーク セキュリティ グループ (NSG) のアクセス許可を調整する必要があります。 Azure portal で、リソース グループ内の NSG リソースを見つけます。 パブリック インターネットから JupyterHub にアクセスするには、ポート 8000 を開く必要があります。 (Just-In-Time アクセスの構成を強くおすすめします。この図を見ると、VM が Just-In-Time アクセスを使用するように構成されていることがわかります。詳細については、「Just-In-Time アクセスを使用して管理ポートをセキュリティで保護する」を参照してください。
使用可能なサンプル ノートブックを参照します。
次世代の Jupyter Notebook と JupyterHub である JupyterLab も利用できます。 アクセスするには、JupyterHub にサインインします。 次に、URL https://your-vm-ip:8000/user/your-username/lab
を参照します。 your-username は、VM の構成時に選択したユーザー名に置き換えます。 ここでも、潜在的な証明書エラーによって、サイトへのアクセスが最初はブロックされる可能性があります。
JupyterLab を既定のノートブック サーバーとして設定するには、次の行を /etc/jupyterhub/jupyterhub_config.py
に追加します。
c.Spawner.default_url = '/lab'
次のステップ
- 「Linux Data Science Virtual Machine でのデータ サイエンス」チュートリアルで、ここでプロビジョニングされた Linux DSVM を使用して、一般的なデータ サイエンス タスクをいくつか実行する方法を参照してください。
- この記事で説明しているツールを試して、DSVM 上のさまざまなデータ サイエンス ツールを確認します。 VM にインストールされているツールの基本的な概要と詳細情報を入手できる場所は、VM 内のシェルで
dsvm-more-info
を実行して確認することもできます。 - Team Data Science Process を使用して、分析ソリューションを体系的に構築する方法を確認します。
- この VM に適したリファレンス ドキュメントを参照してください。