次の方法で共有


Azure Databricks の探索的データ分析: ツールと手法

この記事では、Azure Databricks での探索的データ分析 (EDA) のツールと手法について説明します。

EDA とは何か、なぜ役に立つのですか?

探索的データ分析 (EDA) には、データセットを探索して主な特性を要約し、データに関する問題を特定するためのメソッドが含まれています。 統計手法と視覚化を使用すると、データ セットについて学習し、分析の準備状況を判断し、データ準備に適用する手法を知ることができます。 EDA は、ML モデルのトレーニングに適用するアルゴリズムに影響を与える場合もあります。

Azure Databricks の EDA ツールとは

Azure Databricks には、Databricks SQL と Databricks Runtime の両方に組み込みの分析および視覚化ツールがあります。 Azure Databricks で使用できる視覚化の種類の一覧については、「視覚化の種類」を参照してください。

Databricks SQL の EDA

Databricks SQL のデータの視覚化と探索ツールに関する役立つ記事を次に示します。

Databricks Runtime での EDA

Databricks Runtime には、一般的なデータ探索ライブラリが既にインストールされている事前構築済みの環境が用意されています。 組み込みライブラリの一覧は、リリース ノートで確認できます。

さらに、次の記事では、Databricks Runtime の視覚化ツールの例を示します。

Databricks Python ノートブックでは、SQL と Python を組み合わせてデータを探索できます。 Python ノートブックの SQL 言語セルでコードを実行すると、テーブルの結果が Python DataFrame として自動的に使用できるようになります。 詳細については、「Python ノートブックで SQL セルの結果を調べる」を参照してください。