Azure Databricks の探索的データ分析: ツールと手法
この記事では、Azure Databricks での探索的データ分析 (EDA) のツールと手法について説明します。
EDA とは何か、なぜ役に立つのですか?
探索的データ分析 (EDA) には、データセットを探索して主な特性を要約し、データに関する問題を特定するためのメソッドが含まれています。 統計手法と視覚化を使用すると、データ セットについて学習し、分析の準備状況を判断し、データ準備に適用する手法を知ることができます。 EDA は、ML モデルのトレーニングに適用するアルゴリズムに影響を与える場合もあります。
Azure Databricks の EDA ツールとは
Azure Databricks には、Databricks SQL と Databricks Runtime の両方に組み込みの分析および視覚化ツールがあります。 Azure Databricks で使用できる視覚化の種類の一覧については、「視覚化の種類」を参照してください。
Databricks SQL の EDA
Databricks SQL のデータの視覚化と探索ツールに関する役立つ記事を次に示します。
- クエリを視覚化し、ダッシュボード を作成する
- databricks SQL でデータ視覚化を作成する
Databricks Runtime での EDA
Databricks Runtime には、一般的なデータ探索ライブラリが既にインストールされている事前構築済みの環境が用意されています。 組み込みライブラリの一覧は、リリース ノートで確認できます。
さらに、次の記事では、Databricks Runtime の視覚化ツールの例を示します。
Databricks Python ノートブックでは、SQL と Python を組み合わせてデータを探索できます。 Python ノートブックの SQL 言語セルでコードを実行すると、テーブルの結果が Python DataFrame として自動的に使用できるようになります。 詳細については、「Python ノートブックで SQL セルの結果を調べる」を参照してください。