Databricks UI を使用してモニターを作成する
この記事では、Databricks UI を使用してデータ モニターを作成する方法について説明します。 また、API を使用することもできます。
Databricks UI にアクセスするには、次の操作を行います。
- ワークスペースの左側のサイドバーで、[カタログ] アイコン
クリックして、カタログ エクスプローラーの 開きます。 - 監視するテーブルに移動します。
- [品質] タブをクリックします。
- [作業の開始] ボタン クリックします。
- モニターの作成で、モニターを設定するオプションを選択します。
プロファイル
プロファイルの種類 メニューから、作成するモニターの種類を選択します。 プロファイルの種類を表に示します。
プロファイルの種類 | 説明 |
---|---|
時系列プロファイル | 時間の経過と同時に測定された値を含むテーブル。 このテーブルにはタイムスタンプ列が含まれています。 |
推論プロファイル | 機械学習の分類または回帰モデルによって出力される予測値を含むテーブル。 このテーブルには、タイムスタンプ、モデル ID、モデル入力 (特徴)、モデル予測を含む列、および一意の観測 ID とグラウンド トゥルース ラベルを含む省略可能な列が含まれます。 また、モデルへの入力として使用されないメタデータ (人口統計情報など) が含まれている場合もありますが、公平性と偏見の調査やその他の監視に役立つ可能性があります。 |
スナップショット プロファイル | Delta マネージド テーブル、外部テーブル、ビュー、具体化されたビュー、またはストリーミング テーブル。 |
TimeSeries
または Inference
を選択した場合は、追加のパラメーターが必要であり、以降のセクションで説明します。
Note
- 時系列または推論プロファイルを初めて作成するとき、モニターは作成以前の 30 日間のデータのみを分析します。 モニターが作成された後は、すべての新しいデータが処理されます。
- 具体化されたビューとストリーミング テーブルで定義されたモニターは、増分処理をサポートしていません。
ヒント
TimeSeries
プロファイルと Inference
プロファイルの場合は、テーブルで変更データ フィード (CDF) を有効にすることをお勧めします。 CDF を有効にすると、更新のたびにテーブル全体を再処理するのではなく、新しく追加されたデータのみが処理されます。 これにより、多くのテーブルで監視をスケーリングする際の実行効率が向上し、コストが削減されます。
TimeSeries
プロファイル
TimeSeries
プロファイルの場合は、次の選択を行う必要があります。
- メトリックの細分性 を指定して、期間を超えてウィンドウ内のデータをパーティション分割する方法を決定します。
- Timestamp 列、タイムスタンプを含むテーブル内の列を指定します。 タイムスタンプ列のデータ型は、
TIMESTAMP
またはto_timestamp
PySpark 関数を使用してタイムスタンプに変換できる型する必要があります。
Inference
プロファイル
Inference
プロファイルの場合、細分性とタイムスタンプに加えて、次の選択を行う必要があります。
- 問題の種類、分類または回帰のいずれかを選択します。
- 予測列、つまりモデルの予測値が含まれる列を指定します。
- 必要に応じて、モデル予測のグラウンド トゥルースを含む列である [ラベル列] を指定します。
- モデル ID 列、予測に使用されるモデルの ID を含む列を指定します。
スケジュール
スケジュールに従って実行するようにモニターを設定するには、スケジュール
通知
モニターの電子メール通知を設定するには、通知する電子メールを入力し、有効にする通知を選択します。 通知イベントの種類ごとに最大 5 つのメール アドレスがサポートされます。
全般
[全般] セクションでは、1 つの必須設定といくつかの追加の構成オプションを指定する必要があります。
- モニターによって作成されたメトリック テーブルが格納される Unity カタログ スキーマを指定する必要があります。 場所は {catalog} 形式である必要があります。{schema}。
次の設定を指定することもできます。
資産ディレクトリ。 生成されたダッシュボードなどの監視資産を格納する既存のディレクトリに対する絶対パスを入力します。 既定では、資産は既定のディレクトリ "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}" に格納されます。 このフィールドに別の場所を入力すると、指定したディレクトリの "/{table_name}" に資産が作成されます。 このディレクトリは、ワークスペース内の任意の場所に配置できます。 組織内で共有することを目的としたモニターの場合は、"/Shared/" ディレクトリ内のパスを使用できます。
このフィールドを空白にすることはできません。
Unity Catalog ベースライン テーブル名。 比較用のベースライン データを含むテーブルまたはビューの名前。 ベースライン テーブルの詳細については、「プライマリ入力テーブルとベースライン テーブルの」を参照してください。
メトリック スライス式。 スライス式を使用すると、テーブル全体に加えて監視するテーブルのサブセットを定義できます。 スライス式を作成するには、[式の追加] をクリックし、式の定義を入力します。 たとえば、式
"col_2 > 10"
は 2 つのスライスを生成します。1 つはcol_2 > 10
の、1 つはcol_2 <= 10
のスライスです。 別の例として、式"col_1"
では、col_1
の一意の値ごとに 1 つのスライスが生成されます。 データは各式によって個別にグループ化され、述語とその補数ごとに個別のスライスが作成されます。カスタム メトリック。 カスタム メトリックは、組み込みのメトリックと同様にメトリック テーブルに表示されます。 詳細については、「Databricks レイクハウス監視でカスタム メトリックを使用する」を参照してください。 カスタム メトリックを構成するには、[カスタム メトリックの追加] をクリックします。
- カスタム メトリックの [名前] を入力します。
- カスタム メトリック 種類、
Aggregate
、Derived
、またはDrift
のいずれかを選択します。 定義については、「カスタム メトリックの種類」を参照してください。 - 入力列のドロップダウン リストから、メトリックを適用する列を選択します。
- 出力の種類 フィールドで、メトリックの Spark データ型を選択します。
- [定義] フィールドに、カスタム メトリックを定義する SQL コードを入力します。
UI でモニター設定を編集する
モニターを作成したら、[品質] タブの [モニター構成の編集] ボタンをクリックして、モニターの設定を変更できます。
UI でモニターの結果を更新して表示する
モニターを手動で実行するには、[メトリック
モニター・メトリック・テーブルに保管される統計の詳細については、
出力を監視するためのアクセスを制御する
モニターによって作成されたメトリック テーブルとダッシュボードは、モニターを作成したユーザーが所有します。 Unity カタログ権限を使用して、メトリック テーブルへのアクセスを制御できます。 ワークスペース内でダッシュボードを共有するには、ダッシュボードの右上にある [共有] ボタンをクリックします。
UI からモニターを削除する
UI からモニターを削除するには、[メトリック の更新] ボタンの横にあるケバブメニューをクリックし、[モニター削除] を選択します。