Databricks UI を使用してモニターを作成する
この記事では、Databricks UI を使用してデータ モニターを作成する方法について説明します。 また、API を使用することもできます。
Databricks UI にアクセスするには、次の操作を行います。
- ワークスペースの左側のサイド バーで、 をクリックし、Catalog Explorer を開きます。
- 監視するテーブルに移動します。
- [品質] タブをクリックします。
- [開始する] ボタンをクリックします。
- [モニターの作成] で、モニターを設定するオプションを選択します。
プロファイル
[プロファイルの種類] メニューから、作成するモニターの種類を選択します。 プロファイルの種類が表示されます。
プロファイルの種類 | 説明 |
---|---|
時系列プロファイル | 時間の経過に合わせて測定された値を含むテーブル。 このテーブルにはタイムスタンプ列が含まれています。 |
推論プロファイル | 機械学習の分類または回帰モデルによって出力される予測値を含むテーブル。 このテーブルには、タイムスタンプ、モデル ID、モデル入力 (特徴)、モデル予測を含む列、および一意の観測 ID とグラウンド トゥルース ラベルを含むオプションの列が含まれます。 また、モデルへの入力として使用されないメタデータ (人口統計情報など) が含まれている場合もありますが、公平性と偏見の調査やその他の監視に役立つ可能性があります。 |
スナップショット プロファイル | Delta マネージド テーブル、外部テーブル、ビュー、具体化されたビュー、またはストリーミング テーブル。 |
TimeSeries
または Inference
を選択する場合は、追加のパラメーターが必要であり、これについては以降のセクションで説明します。
Note
- 時系列または推論プロファイルを初めて作成するとき、モニターは作成以前の 30 日間のデータのみを分析します。 モニターが作成された後は、すべての新しいデータが処理されます。
- 具体化されたビューとストリーミング テーブルで定義されたモニターでは、増分処理はサポートされません。
ヒント
TimeSeries
プロファイルと Inference
プロファイルの場合は、テーブルで変更データ フィード (CDF) を有効にすることをお勧めします。 CDF を有効にすると、更新のたびにテーブル全体を再処理するのではなく、新しく追加されたデータのみが処理されます。 これにより、多くのテーブルで監視をスケーリングする際の実行効率が向上し、コストが削減されます。
TimeSeries
プロファイル
TimeSeries
プロファイルの場合は、次の選択を行う必要があります。
- 時間をまたいでウィンドウのデータをパーティション分割する方法を決定する [メトリックの細分性] を指定します。
- タイムスタンプを含むテーブル内の列である、[タイムスタンプ列] を指定します。 タイムスタンプ列のデータ型は、
TIMESTAMP
、またはto_timestamp
PySpark 関数を使用してタイムスタンプに変換できる型である必要があります。
Inference
プロファイル
Inference
プロファイルの場合、細分性とタイムスタンプに加えて、次の選択を行う必要があります。
- 分類または回帰のいずれかの [問題の種類] を選択します。
- モデルの予測値を含む列である、[予測列] を指定します。
- 必要に応じて、モデル予測の実測値を含む列である [ラベル列] を指定します。
- 予測に使用されるモデルの ID が含まれる列である、[モデル ID 列] を指定します。
スケジュール
スケジュールに基づいて実行するようにモニターを設定するには、[スケジュールに基づいて更新] を選択し、モニターを実行する頻度と時間を選択します。 モニターを自動的に実行しない場合は、[手動で更新] を選択します。 [手動で更新] を選択した場合は、後で [品質] タブからメトリックを更新できます。
通知
モニターのメール アドレス通知を設定するには、通知するメール アドレスを入力し、有効にする通知を選択します。 通知イベントの種類ごとに最大 5 つのメール アドレスがサポートされます。
全般
[全般] セクションでは、1 つの必須設定といくつかの追加の構成オプションを指定する必要があります。
- モニターで作成されたメトリック テーブルが格納される Unity Catalog スキーマを指定する必要があります。 場所は {catalog} 形式である必要があります。{schema}。
次の設定を指定することもできます。
資産ディレクトリ。 生成されたダッシュボードなどの監視資産を格納する既存のディレクトリに対する絶対パスを入力します。 既定では、資産は既定のディレクトリ "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}" に格納されます。 このフィールドに別の場所を入力すると、指定したディレクトリの "/{table_name}" に資産が作成されます。 このディレクトリは、ワークスペース内の任意の場所に配置できます。 組織内で共有することを目的としたモニターの場合は、"/Shared/" ディレクトリ内のパスを使用できます。
このフィールドを空白にすることはできません。
Unity Catalog ベースライン テーブル名。 比較用のベースライン データを含むテーブルまたはビューの名前。 ベースライン テーブルに関する詳細については、「プライマリ入力テーブルとベースライン テーブル」を参照してください。
メトリック スライス式。 スライス式を使用すると、テーブル全体に加えて監視するテーブルのサブセットを定義できます。 スライス式を作成するには、[式の追加] をクリックし、式の定義を入力します。 たとえば、式
"col_2 > 10"
は 2 つのスライスを生成します。1 つはcol_2 > 10
の、1 つはcol_2 <= 10
のスライスです。 もう 1 つの例として、式"col_1"
では、col_1
の一意の値ごとに 1 つのスライスが生成されます。 データは各式によって個別にグループ化され、述語とその補数ごとに個別のスライスが作成されます。カスタム メトリック。 カスタム メトリックは、組み込みのメトリックと同様にメトリック テーブルに表示されます。 詳細については、「Databricks レイクハウス監視でカスタム メトリックを使用する」を参照してください。 カスタム メトリックを構成するには、[カスタム メトリックの追加] をクリックします。
- カスタム メトリックの [名前] を入力します。
- カスタム メトリックの [種類] を
Aggregate
、Derived
、またはDrift
のいずれかから選択します。 定義については、「カスタム メトリックの種類」を参照してください。 - [入力列] のドロップダウン リストから、メトリックを適用する列を選択します。
- [出力の種類] フィールドで、メトリックの Spark データ型を選択します。
- [定義] フィールドに、カスタム メトリックを定義する SQL コードを入力します。
UI でモニター設定を編集する
モニターを作成したら、[品質] タブの [モニター構成の編集] ボタンをクリックして、モニターの設定を変更できます。
UI でモニターの結果を更新して表示する
モニターを手動で実行するには、[メトリックの更新] をクリックします。
監視メトリック テーブルに格納される統計の詳細については、「メトリック テーブルを監視する」を参照してください。 メトリック テーブルは Unity Catalog テーブルです。 ノートブックまたは SQL クエリ エクスプローラーでクエリを実行すると、Catalog Explorer に表示できます。
出力を監視するためのアクセスを制御する
モニターで作成されたメトリック テーブルとダッシュボードは、モニターを作成したユーザーが所有します。 Unity Catalog 特権を使用して、メトリック テーブルへのアクセスを制御できます。 ワークスペース内でダッシュボードを共有するには、ダッシュボードの右上にある [共有] ボタンをクリックします。
UI からモニターを削除する
UI からモニターを削除するには、[メトリックの更新] ボタンの横にある kebab メニューをクリックし、[モニターの削除] を選択します。