データの検出
Azure Databricks には、Databricks Data Intelligence Platform を通じてアクセス可能なデータ資産の検出を簡素化する一連のツールと製品が用意されています。 この記事では、ワークスペースでアクセス用に構成されたデータを検出して確認する方法の概要を説明します。
- データ ソースを接続するには、データ ソースへの接続に関するページを参照してください。
- Databricks Marketplace でデータにアクセスする方法の詳細については、Databricks Marketplace の概要に関するページをご覧ください。
このセクションのトピックでは、データ オブジェクトとデータ ファイルの探索に焦点を当てます。 ノートブック、SQL クエリ、ライブラリ、モデルなどの資産の操作の詳細については、ワークスペースの移動に関する記事を参照してください。
データセットの概要統計情報の生成や、探索的データ分析 (EDA) に関連するその他のタスクに関するガイダンスをお探しの場合は、Azure Databricks での探索的データ分析: ツールと手法に関する記事を参照してください。
データ資産はどのように検出できますか?
Azure Databricks 上の検出ツールは、次の汎用カテゴリに分類されます。
- AI の支援による分析情報、要約、検索。
- キーワード検索
- UI を使用したカタログ探索。
- プログラムによる一覧表示とメタデータ探索。
データ検出ツールは、Unity Catalog で管理されるデータ用に最適化されています。 Unity Catalog オブジェクトとして登録されていないデータ資産は、これらのアプローチの一部を使用して検出できない場合があります。
UI を使用したデータの検索
カタログ エクスプローラーには、データ資産を探索および管理するためのツールが用意されています。 ワークスペースのサイド バーで [カタログ] を使用して、カタログ エクスプローラーにアクセスします。 「カタログ エクスプローラーとは」を参照してください。
ノートブックと SQL クエリ エディターには、データベース オブジェクトを探索するためのカタログ ナビゲーターも用意されています。 これらのインターフェイスで [カタログ] アイコンをクリックすると、コード エディターから移動することなくカタログ ナビゲーターを展開または折りたたむことができます。
興味のあるデータセットを見つけたら、[分析情報] タブを使用して、ワークスペースでのデータの使用方法を確認できます。 「テーブルの頻繁なクエリとユーザーを表示する」を参照してください。
プログラムでデータを探索する
すべてのデータベース オブジェクトで SHOW
コマンドを使用すると、Unity Catalog に登録されている資産を検出できます。 LIST
コマンド、%fs
マジック コマンド、または Databricks ユーティリティを使用してファイルを一覧表示できます。
「ストレージを探索してデータ ファイルを見つける」と「データベース オブジェクトを探索する」を参照してください。
データ コメントの確認
レイクハウスで利用可能なデータセットの内容について学習するするために、コメントを確認できます。 コメントは、カタログ、スキーマ、テーブル、列などのデータ オブジェクトに設定できます。 カタログ エクスプローラーまたはオブジェクトの DESCRIBE
コマンドでコメントを表示できます。
カタログ エクスプローラーは、AI で生成されたテーブルにコメントを提供し、データ資産所有者がデータセットの豊富な概要を簡単に提供できるようにします。 「AI が生成したコメントを Unity Catalog オブジェクトに追加する」を参照してください。
また、オプションでテーブルやその他のデータベース オブジェクトに Markdown を使用してコメントを記入することもできます。これは、カタログ エクスプローラーでレンダリングされます。 「データと AI 資産にコメントを追加する」を参照してください。
レイクハウスでのテーブルの検索
Azure Databricks の検索バーを使用して、Unity Catalog に登録されているテーブルを検索できます。 キーワード検索を実行するか、セマンティック検索を使用して、検索クエリに関連するデータセットや列を見つけることができます。 検索は、表示権限のあるテーブルの結果のみを返します。 検索は、テーブル名、列名、テーブル コメント、列コメントを確認します。 「ワークスペース オブジェクトを検索する」を参照してください。