Azure でのデータ分析とレポート テクノロジの選択
ほとんどのビッグ データ ソリューションの目的は、分析とレポートによってデータに関する実用的な情報を提供することにあります。 これには、事前に構成されたレポートと視覚化や、対話型データ探索が含まれます。
データ分析テクノロジを選ぶときのオプション
Azure での分析、視覚化、レポートには、ニーズに応じていくつかのオプションがあります。
Power BI
Power BI はビジネス分析ツールのスイートです。 何百ものデータ ソースに接続でき、アド ホック分析に使用できます。 現在使用可能なデータ ソースについては、こちらの一覧をご覧ください。 Power BI Embedded は、追加のライセンスを必要とせずに独自のアプリケーション内で Power BI を統合する場合に使用します。
組織では、Power BI を使用してレポートを作成し、組織に公開できます。 すべてのユーザーは、ガバナンスとセキュリティが組み込まれたパーソナライズされたダッシュボードを作成できます。 Power BI は、Microsoft Entra ID を使用して、Power BI サービスにサインインするユーザーを認証し、ユーザーが認証を必要とするリソースへのアクセスを試みるたびに Power BI ログイン資格情報を使用します。
Jupyter Notebooks
Jupyter Notebook は、データ サイエンティストが Python、Scala、または R コードおよびマークダウン テキストを含む "ノートブック" ファイルを作成できるブラウザー ベースのシェルを提供し、コードと結果を 1 つのドキュメントで共有および文書化して効果的に共同作業できるようにします。
Spark や Hadoop など、さまざまな HDInsight クラスターのほとんどは、データと対話し、処理するジョブを送信するために、Jupyter Notebook で事前構成されています。 使用する HDInsight クラスターの種類に応じて、コードの解釈と実行用に 1 つまたは複数のカーネルが提供されます。 たとえば、HDInsight 上の Spark クラスターは、Spark エンジンを使用して Python または Scala コードを実行するために選べる Spark 関連のカーネルを提供します。
Jupyter Notebook では、Power BI などの BI/レポート ツールでより高度な視覚化を構築する前にデータを分析、視覚化、処理するための優れた環境が提供されます。
Zeppelin Notebook
Zeppelin Notebook は、ブラウザー ベース シェルのもう 1 つのオプションであり、機能は Jupyter に似ています。 一部の HDInsight クラスターは Zeppelin Notebook で事前構成されています。 ただし、HDInsight 対話型クエリ (Hive LLAP) クラスターを使用する場合、Zeppelin は現在、対話型 Hive クエリの実行に使用できる唯一のノートブックです。 また、ドメイン参加済み HDInsight クラスターを使用する場合、Zeppelin Notebook は、ノートブックおよび基になる Hive テーブルへのアクセスを制御するために異なるユーザー ログインを割り当てることができる唯一の種類です。
VS Code での Jupyter ノートブック
VS Code は、無料のコード エディターと開発プラットフォームであり、ローカルでもリモート コンピューティングに接続しても使用できます。 Jupyter 拡張機能と組み合わせると、Jupyter 開発用の完全な環境が提供され、追加の言語拡張機能で強化できます。 お好みのコンピューティングを使用できる、クラス最高で、無料の Jupyter 環境が必要な場合は、これは最適なオプションです。 VS Code を使用して、リモートとコンテナーに対してノートブックを開発し、実行できます。 Azure Notebooks から簡単に移行するには、コンテナー イメージを利用可能にし、VS Code でも使用できるようにします。
Jupyter (旧称 IPython Notebook) は、ノートブックと呼ばれる 1 つのキャンバス上で Markdown テキストと実行可能な Python ソース コードを簡単に組み合わせることができるオープンソース プロジェクトです。 Visual Studio Code では、Jupyter ノートブックのネイティブでの操作に加えて、Python コード ファイルを介した操作もサポートされています。
主要な選択条件
選択肢を絞り込むために、まず次の質問に答えてください。
多数のデータ ソースに接続して、ドメイン全体に分散したデータのレポートを作成する一元的な場所を提供する必要がありますか。 その場合は、数百のデータ ソースに接続できるオプションを選びます。
動的視覚化を外部 Web サイトまたはアプリケーションに埋め込みますか? その場合は、埋め込み機能を提供するオプションを選びます。
オフライン中に視覚化とレポートをデザインしますか。 答えが「はい」の場合は、オフライン機能があるオプションを選びます。
大規模または複雑な AI モデルをトレーニングしたり非常に大規模なデータ セットを操作したりするために高い処理能力が必要ですか。 答えが「はい」の場合は、ビッグ データ クラスターに接続できるオプションを選びます。
機能のマトリックス
次の表は、機能の主な相違点をまとめたものです。
一般的な機能
機能 | Power BI | Jupyter Notebooks | Zeppelin Notebook | VS Code での Jupyter ノートブック |
---|---|---|---|---|
高度な処理のためのビッグ データ クラスターへの接続 | はい | イエス | はい | いいえ |
管理されたサービス | はい | はい 1 | はい 1 | はい |
数百のデータ ソースへの接続 | はい | いいえ | いいえ | いいえ |
オフライン機能 | はい 2 | いいえ | いいえ | いいえ |
埋め込み機能 | はい | いいえ | いいえ | いいえ |
データの自動更新 | はい | いいえ | いいえ | いいえ |
多数のオープン ソース パッケージへのアクセス | いいえ | はい 3 | はい 3 | はい 4 |
データ変換/クレンジング オプション | Power Query、R | Python、R、Julia、Scala などの 40 言語 | Python、JDBC、R などの 20 を超えるインタープリター | Python、F#、R |
価格 | 無料の Power BI Desktop (作成) については、ホスティング オプションの「価格」を参照してください | Free | Free | Free |
マルチユーザー コラボレーション | はい | はい (共有または JupyterHub などのマルチユーザー サーバーを使用) | はい | はい (共有を使用) |
[1] 管理される HDInsight クラスターの一部として使用する場合。
[2] Power BI Desktop を使用する場合。
[2] コミュニティから提供されたパッケージは Maven リポジトリで検索できます。
[3] pip または Conda を使用して Python パッケージをインストールできます。 R パッケージは CRAN または GitHub からインストールできます。 F# のパッケージは、パケット依存関係マネージャーを使用して Nuget.org 経由でインストールできます。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパル作成者:
- Zoiner Tejada | CEO 兼アーキテクト
次のステップ
- Python 用 Jupyter Notebook を使い始める
- Notebook
- Azure Data Factory を使用して Azure Databricks Notebook を実行する
- ワークスペースで Jupyter Notebook を実行する
- Power BI とは?