次の方法で共有


Azure Databricks での探索的データ分析: ツールと手法

この記事では、Azure Databricks での探索的データ分析 (EDA) 用のツールと手法について説明します。

EDA とは何か、それが役に立つ理由

探索的データ分析 (EDA) には、データセットを探索してその主な特性を要約し、データに関する問題を特定する方法が含まれています。 統計の手法と視覚化を使用して、データ セットについて学習し、分析の準備ができているかを判断し、データ準備に適用する手法を通知できます。 EDA は、ML モデルのトレーニングに適用するアルゴリズムに影響を与える場合もあります。

Azure Databricks の EDA ツールとは

Azure Databricks には、Databricks SQL と Databricks Runtime の両方に組み込みの分析ツールと視覚化ツールがあります。 視覚化の種類に関するページでは、Azure Databricks で使用できる視覚化の種類の一覧を図を使って紹介しています。

Databricks SQL での EDA

Databricks SQL のデータの可視化とデータ探索ツールに関する役立つ記事を以下に示します。

Databricks Runtime での EDA

Databricks Runtime には、一般的なデータ探索ライブラリが既にインストールされている事前構築済みの環境が用意されています。 組み込みのライブラリの一覧は、リリース ノートで確認できます。

さらに、次の記事では、Databricks Runtime の視覚化ツールの例を紹介しています。

Databricks Python ノートブックでは、SQL と Python を組み合わせてデータを探索できます。 Databricks Python ノートブックの SQL 言語セルでコードを実行すると、テーブルの結果が Python DataFrame として自動的に使用できるようになります。 詳細については、Python ノートブックにおける SQL セルの結果の調査に関する記事を参照してください。