Spark でのライブラリ管理
大事な
AKS 上の Azure HDInsight は、2025 年 1 月 31 日に廃止されました。 より詳しい情報はこのお知らせ で確認してください。
ワークロードの突然の終了を回避するには、ワークロードを Microsoft Fabric または同等の Azure 製品 に移行する必要があります。
大事な
この機能は現在プレビュー段階です。 Microsoft Azure プレビューの 追加使用条件 には、ベータ版、プレビュー版、または一般公開されていない Azure 機能に適用される、より多くの法的条件が含まれています。 この特定のプレビューの詳細については、AKS プレビュー情報 Azure HDInsightを参照してください。 質問や機能の提案については、詳細を記載して AskHDInsight でリクエストを送信してください。また、Azure HDInsight Community をフォローして、さらなる更新情報を入手してください。
ライブラリ管理の目的は、クラスターで実行されているノートブックとジョブでオープンソースまたはカスタム コードを使用できるようにするためです。 PyPI リポジトリから Python ライブラリをアップロードできます。 この記事では、クラスター UI でのライブラリの管理に重点を置いています。 AKS 上の Azure HDInsight には、クラスターに多くの一般的なライブラリが既に含まれています。 AKS クラスターの HDI に含まれているライブラリを確認するには、ライブラリ管理ページを確認します。
ライブラリのインストール
ライブラリは、次の 2 つのモードでインストールできます。
- クラスターインストール済み
- ノートブック スコープ
インストールされているクラスター
クラスターで実行されているすべてのノートブックで、クラスター ライブラリを使用できます。 PyPi などのパブリック リポジトリからクラスター ライブラリを直接インストールできます。 Maven リポジトリからのアップロード、クラウド ストレージからのカスタム ライブラリのアップロードはロードマップに含まれています。
ノートブック スコープ
Python と Scala で使用できるノートブック スコープのライブラリ。ライブラリをインストールし、ノートブック セッションをスコープとする環境を作成できます。 これらのライブラリは、同じクラスターで実行されている他のノートブックには影響しません。 ノートブック スコープのライブラリは保持されないため、セッションごとに再インストールする必要があります。
手記
特定のノートブックのカスタム環境が必要な場合は、ノートブック スコープライブラリを使用します。
ライブラリインストールのモード
PyPI: インストール UI でライブラリ名とバージョンを指定して、オープン ソースの PyPI リポジトリからライブラリをフェッチします。
インストールされているライブラリを表示する
[概要] ページで、[ライブラリ マネージャー] に移動します。
Spark クラスター マネージャーで、[ライブラリ マネージャー] をクリックします。
インストールされているライブラリの一覧は、ここから確認できます。
ライブラリ ウィジェットの追加
PyPI
PyPI タブで、パッケージ名の とパッケージ バージョン 入力します。.
インストールをクリックします。
ライブラリのアンインストール
ライブラリを使用しなくなった場合は、ライブラリ管理ページのアンインストール ボタンを使用してライブラリ パッケージを簡単に削除できます。
ライブラリ名を選択してクリックします
ウィジェットアンインストールをクリックします
手記
- Jupyter Notebook からインストールされたパッケージは、Jupyter Notebook からのみ削除できます。
- ライブラリ マネージャーからインストールされたパッケージは、ライブラリ マネージャーからのみアンインストールできます。
- ライブラリ/パッケージをアップグレードするには、ライブラリの現在のバージョンをアンインストールし、必要なバージョンのライブラリを再インストールします。
- Jupyter Notebook からのライブラリのインストールは、セッションに特に適しています。 永続的ではありません。
- サイズと複雑さのため、重いパッケージのインストールには時間がかかる場合があります。