Создание монитора с помощью пользовательского интерфейса Databricks
В этой статье показано создание монитора данных с помощью пользовательского интерфейса Databricks. Вы также можете использовать API.
Чтобы получить доступ к пользовательскому интерфейсу Databricks, выполните следующие действия.
- На левой боковой панели рабочей области щелкните значок каталога
, чтобы открыть обозреватель каталогов. - Перейдите к таблице, которую вы хотите отслеживать.
- Щелкните вкладку " Качество ".
- Нажмите кнопку Начало работы.
- В создание мониторавыберите параметры, которые необходимо настроить.
Профилирование
Из меню типа профиля выберите тип монитора, который вы хотите создать. Типы профилей отображаются в таблице.
Тип графика | Description |
---|---|
Профиль временных рядов | Таблица, содержащая значения, измеряемые с течением времени. Эта таблица содержит столбец метки времени. |
Профиль вывода | Таблица, содержащая прогнозируемые значения в модели классификации машинного обучения или регрессии. Эта таблица включает метку времени, идентификатор модели, признаки модели, столбец, содержащий прогнозы модели, и необязательные столбцы, содержащие уникальные идентификаторы наблюдений и истинные метки. Он также может содержать метаданные, такие как демографические сведения, которые не используются в качестве входных данных в модель, но могут оказаться полезными для исследований справедливости и предвзятости или другого мониторинга. |
Профиль моментального снимка | Любая управляемая таблица Delta, внешняя таблица, представление, материализованное представление или потоковая таблица. |
Если выбрать TimeSeries
или Inference
, необходимы дополнительные параметры и описаны в следующих разделах.
Примечание.
- При первом создании временных рядов или профилей вывода монитор анализирует только данные с 30 дней до его создания. После создания монитора обрабатываются все новые данные.
- Мониторы, определенные для материализованных представлений и потоковых таблиц, не поддерживают добавочную обработку.
Совет
Для профилей TimeSeries
и Inference
рекомендуется включить CDF в вашей таблице. Если CDF включен, обрабатываются только новые добавленные данные, а не вся таблица повторно при каждом обновлении. Это повышает эффективность выполнения и снижает затраты при масштабировании мониторинга во многих таблицах.
TimeSeries
профиль
TimeSeries
Для профиля необходимо выбрать следующие элементы:
- Укажите детализацию метрик, которые определяют, как секционировать данные в окнах по времени.
- Укажите столбец с меткой времени, столбец в таблице, который содержит эту метку. Тип данных столбца метки времени должен быть либо
TIMESTAMP
, либо тип, который можно преобразовать в метки времени с помощью функцииto_timestamp
PySpark.
Inference
профиль
Inference
Для профиля в дополнение к детализации и метке времени необходимо выбрать следующие элементы:
- Выберите тип проблемы , классификацию или регрессию.
- Укажите столбец прогнозирования , столбец, содержащий прогнозируемые значения модели.
- При необходимости укажите столбец метки , столбец, содержащий истинные значения для прогнозов моделей.
- Укажите столбец идентификатора модели , столбец, содержащий идентификатор модели, используемой для прогнозирования.
Расписание
Чтобы настроить монитор для запуска по расписанию, выберите Обновить по расписанию и выберите частоту и время запуска монитора. Если вы не хотите, чтобы монитор обновлялся автоматически, выберите Обновить вручную. Если выбрать "Обновить вручную", можно позже обновить метрики на вкладке "Качество".
Notifications
Чтобы настроить уведомления по электронной почте для монитора, введите сообщение электронной почты, чтобы получать уведомления, и выберите уведомления, которые нужно включить. Для каждого типа события уведомления поддерживается до 5 сообщений электронной почты.
Общие
В разделе "Общие" необходимо указать один обязательный параметр и некоторые дополнительные параметры конфигурации:
- Необходимо указать схему каталога Unity, в которой хранятся таблицы метрик, созданные монитором. Расположение должно находиться в формате {catalog}. {schema}.
Можно также указать следующие параметры:
Каталог ресурсов. Введите абсолютный путь к существующему каталогу для хранения ресурсов мониторинга, таких как созданная панель мониторинга. По умолчанию ресурсы хранятся в каталоге по умолчанию: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Если ввести другое расположение в этом поле, ресурсы создаются в разделе "/{table_name}" в указанном каталоге. Этот каталог может находиться в любом месте рабочей области. Для мониторов, предназначенных для общего доступа в организации, можно использовать путь в каталоге "/Shared/".
Это поле не может оставаться пустым.
базовое название таблицы в каталоге Unity. Имя таблицы или представления, содержащей базовые данные для сравнения. Дополнительные сведения о базовых таблицах см. в основной входной таблице и базовой таблице.
Выражения срезов метрик. Выражения срезов позволяют определять подмножества таблицы для отслеживания в дополнение к таблице в целом. Чтобы создать выражение срезов, нажмите кнопку "Добавить выражение " и введите определение выражения. Например, выражение
"col_2 > 10"
создает два среза: один дляcol_2 > 10
и один дляcol_2 <= 10
. В другом примере выражение"col_1"
создаст один срез для каждого уникального значения вcol_1
. Данные группируются по каждому выражению независимо, что приводит к отдельному срезу для каждого предиката и его дополнений.Пользовательские метрики. Пользовательские метрики отображаются в таблицах метрик, как и любые встроенные метрики. Дополнительные сведения см. в разделе "Использование пользовательских метрик" с databricks Lakehouse Monitoring. Чтобы настроить настраиваемую метрику, нажмите кнопку "Добавить пользовательскую метрику".
- Введите имя настраиваемой метрики.
- Выберите настраиваемую метрику типа, одну из
Aggregate
,Derived
илиDrift
. Определения см. в разделе "Типы пользовательских метрик". - В раскрывающемся списке в входных столбцоввыберите столбцы для применения метрики.
- В поле типа вывода выберите тип данных Spark для метрики.
- В поле "Определение" введите код SQL, определяющий настраиваемую метрику.
Изменение параметров монитора в пользовательском интерфейсе
После создания монитора можно внести изменения в параметры монитора, нажав кнопку "Изменить конфигурацию монитора" на вкладке "Качество ".
обновите и просмотрите результаты мониторинга в пользовательском интерфейсе
Чтобы запустить монитор вручную, щелкните Обновить показатели.
Сведения о статистике, хранящейся в таблицах метрик мониторинга, см. в
Управление доступом к мониторингу выходных данных
Таблицы метрик и панель мониторинга, созданные монитором, принадлежат пользователю, создавшему монитор. С помощью привилегий каталога Unity можно управлять доступом к таблицам метрик. Чтобы предоставить общий доступ к панелям мониторинга в рабочей области, нажмите кнопку "Общий доступ " в правой верхней части панели мониторинга.
Удаление монитора из пользовательского интерфейса
Чтобы удалить монитор из пользовательского интерфейса, щелкните меню кебаб рядом с кнопкой Обновить метрики и выберите Удалить монитор.