Поделиться через


Общие сведения о мониторинге Databricks Lakehouse

В этой статье описывается Мониторинг Databricks Lakehouse. Он охватывает преимущества мониторинга данных и предоставляет общие сведения о компонентах и использовании Databricks Lakehouse Monitoring.

Databricks Lakehouse Monitoring позволяет отслеживать статистические свойства и качество данных во всех таблицах в вашей учетной записи. Вы также можете использовать его для отслеживания производительности моделей машинного обучения и конечных точек, обслуживающих модели, путем мониторинга таблиц вывода, содержащих входные и прогнозы модели. На схеме показан поток данных через конвейеры данных и машинного обучения в Databricks, а также способы непрерывного отслеживания качества данных и производительности модели.

Обзор мониторинга Databricks Lakehouse

Зачем использовать Мониторинг Databricks Lakehouse?

Чтобы получить полезные аналитические сведения из данных, необходимо иметь уверенность в качестве данных. Мониторинг данных предоставляет количественные меры, которые помогают отслеживать качество и согласованность данных с течением времени. При обнаружении изменений в распределении данных таблицы или производительности соответствующей модели таблицы, созданные Databricks Lakehouse Monitoring, могут записывать и оповещать вас об изменении и помочь вам определить причину.

Databricks Lakehouse Monitoring помогает ответить на такие вопросы:

  • Как выглядит целостность данных и как она изменяется с течением времени? Например, какова доля значений NULL или нуля в текущих данных и увеличилась ли она?
  • Как выглядит статистическое распределение данных и как оно изменяется с течением времени? Например, что такое 90-й процентиль числового столбца? Или как распределяются значения в категориальном столбце и чем они отличаются от вчерашнего дня?
  • Существует ли смещение между текущими данными и известной базовой базой данных или между последовательными периодами времени данных?
  • Как выглядит статистическое распределение или смещение подмножества или среза данных?
  • Как с течением времени перемещаются входные и прогнозы модели машинного обучения?
  • Как с течением времени тенденция к производительности модели? Работает ли модель A лучше, чем версия B?

Кроме того, Databricks Lakehouse Monitoring позволяет управлять степенью детализации наблюдений и настраивать пользовательские метрики.

Требования

Для использования Databricks Lakehouse Monitoring требуются следующие компоненты:

  • Для работы с каталoгом Unity рабочая область должна быть настроена, и у вас должен быть доступ к Databricks SQL.
  • Для мониторинга поддерживаются только разностные таблицы, а таблица должна быть одной из следующих типов таблиц: управляемые таблицы, внешние таблицы, представления, материализованные представления или потоковые таблицы.
  • Мониторы, созданные на основе материализованных представлений и потоковых таблиц, не поддерживают инкрементальную обработку.
  • Не все регионы поддерживаются. Сведения о региональной поддержке см. в столбце «Мониторинг Lakehouse» в таблице «Искусственный интеллект и машинное обучение».

Примечание.

Databricks Lakehouse Monitoring использует бессерверные вычисления для заданий. Сведения об отслеживании расходов на мониторинг Lakehouse см. в разделе Просмотр расходов на мониторинг Lakehouse.

Как работает мониторинг Lakehouse в Databricks

Чтобы отслеживать таблицу в Databricks, создайте монитор, подключенный к таблице. Чтобы отслеживать производительность модели машинного обучения, вы подключаете монитор к таблице вывода, содержащей входные данные модели и соответствующие прогнозы.

Databricks Lakehouse Monitoring предоставляет следующие типы анализа: временные ряды, моментальные снимки и вывод.

Тип графика Description
Временной ряд Используется для таблиц, содержащих набор данных временных рядов на основе столбца метки времени. Мониторинг вычисляет метрики качества данных в временных окнах временных рядов.
Вывод Используется для таблиц, содержащих журнал запросов для модели. Каждая строка — это запрос, со столбцами отметки времени, входными данными модели, соответствующим прогнозом и необязательной истинной меткой. Мониторинг сравнивает производительность модели и метрики качества данных в окнах на основе времени журнала запросов.
Снимок Используется для всех других типов таблиц. Мониторинг вычисляет метрики качества данных по всем данным в таблице. Полная таблица обрабатывается при каждом обновлении.

В этом разделе кратко описаны входные таблицы, используемые Databricks Lakehouse Monitoring, и таблицы метрик, которые он создаёт. На схеме показана связь между входной таблицей, таблицами метрик, монитором и панелью мониторинга.

Схема мониторинга Databricks Lakehouse

основная таблица и базовая таблица

Помимо отслеживаемой таблицы, называемой основной таблицей, можно также указать базовую таблицу, которая будет использоваться в качестве ссылки для измерения смещения, или изменения значений с течением времени. Базовая таблица полезна при наличии примера того, что вы ожидаете, что данные будут выглядеть. Идея заключается в том, что смещение затем вычисляется относительно ожидаемых значений и распределений данных.

Базовая таблица должна содержать набор данных, который отражает ожидаемое качество входных данных с точки зрения статистических распределений, распределения отдельных столбцов, отсутствующих значений и других характеристик. Она должна соответствовать схеме отслеживаемой таблицы. Исключением является столбец метки времени для таблиц, используемых с профилями временных рядов или выводов. Если столбцы отсутствуют в основной таблице или базовой таблице, мониторинг использует эвристики лучших усилий для вычисления выходных метрик.

Для мониторов, использующих профиль моментального снимка, базовая таблица должна содержать моментальный снимок данных, где распределение соответствует приемлемому стандарту качества. Например, в данных распределения оценок можно установить эталон для предыдущего класса, в котором оценки распределялись равномерно.

Для мониторов, использующих профиль временных рядов, базовая таблица должна содержать данные, представляющие интервалы времени, в которых распределение данных представляет приемлемый стандарт качества. Например, для данных о погоде можно задать базовые показатели на неделю, месяц или год, где температура была близка к ожидаемым нормальным температурам.

Для мониторов, использующих профиль вывода, хорошим выбором для базового плана является данные, которые использовались для обучения или проверки отслеживаемой модели. Таким образом, пользователи могут быть оповещены, когда данные смещались относительно того, на что была обучена и проверена модель. Эта таблица должна содержать те же столбцы признаков, что и основная таблица, и дополнительно иметь тот же model_id_col, который был указан для InferenceLog основной таблицы, чтобы данные агрегировались согласованно. В идеале набор тестов или проверки, используемый для оценки модели, должен использоваться для обеспечения сопоставимых метрик качества модели.

Таблицы метрик и панель мониторинга

Монитор таблиц создает две таблицы метрик и панель мониторинга. Значения метрик вычисляются для всей таблицы, а также для временных окон и подмножеств данных (или «срезов»), указанных при создании монитора. Кроме того, для анализа вывода метрики вычисляются для каждого идентификатора модели. Дополнительные сведения о таблицах метрик см. в таблицах метрик мониторинга.

  • Таблица метрик профиля содержит сводную статистику. См. схему таблицы метрик профиля .
  • Таблица метрик смещения содержит статистику, связанную с дрейфом данных с течением времени. Если указана базовая таблица, смещение также отслеживается относительно базовых значений. См. схему таблицы метрик смещения .

Таблицы метрик — это разностные таблицы и хранятся в указанной схеме каталога Unity. Эти таблицы можно просматривать с помощью пользовательского интерфейса Databricks, запрашивать их с помощью Databricks SQL и создавать панели мониторинга и оповещения на основе них.

Для каждого монитора Databricks автоматически создает панель мониторинга для визуализации и представления результатов монитора. Панель мониторинга полностью настраивается. См. панели мониторинга.

Начало работы с мониторингом Lakehouse в Databricks

Ознакомьтесь со следующими статьями, чтобы приступить к работе: