Просмотр метрик вычислений
В этой статье объясняется, как использовать собственное средство метрики вычислений в пользовательском интерфейсе Azure Databricks для сбора ключевых аппаратных и метрик Spark. Пользовательский интерфейс метрик доступен для вычислений всех целей и заданий.
Примечание.
Бессерверные вычисления для записных книжек и заданий используют аналитические сведения о запросах вместо пользовательского интерфейса метрик. Дополнительные сведения о метриках бессерверных вычислений см. в разделе "Просмотр аналитических сведений о запросах".
Метрики доступны практически в режиме реального времени с обычной задержкой менее одной минуты. Метрики хранятся в управляемом хранилище Azure Databricks, а не в хранилище клиента.
Как эти новые метрики отличаются от Ганглии?
Новый пользовательский интерфейс вычислительных метрик имеет более полное представление об использовании ресурсов кластера, включая использование Spark и внутренние процессы Databricks. В отличие от этого, пользовательский интерфейс Ganglia измеряет потребление контейнеров Spark. Это различие может привести к несоответствию значений метрик между двумя интерфейсами.
Доступ к пользовательскому интерфейсу вычислительных метрик
Чтобы просмотреть пользовательский интерфейс вычислительных метрик, выполните следующие действия.
- На боковой панели щелкните Вычислительная среда.
- Щелкните вычислительный ресурс, для которого нужно просмотреть метрики.
- Перейдите на вкладку "Метрики ".
Аппаратные метрики отображаются по умолчанию. Чтобы просмотреть метрики Spark, щелкните раскрывающееся меню " Оборудование " и выберите Spark. Вы также можете выбрать GPU , если экземпляр включен в GPU.
Фильтрация метрик по периоду времени
Вы можете просмотреть исторические метрики, выбрав диапазон времени с помощью фильтра средства выбора дат. Метрики собираются каждую минуту, поэтому можно фильтровать по любому диапазону дня, часа или минуты за последние 30 дней. Щелкните значок календаря, чтобы выбрать из предопределенных диапазонов данных или щелкните внутри текстового поля, чтобы определить пользовательские значения.
Примечание.
Интервалы времени, отображаемые в диаграммах, корректируются на основе времени просмотра. Большинство метрик являются средними на основе интервала времени, который вы просматриваете в настоящее время.
Вы также можете получить последние метрики, нажав кнопку "Обновить ".
Просмотр метрик на уровне узла
Метрики для отдельных узлов можно просмотреть, щелкнув раскрывающееся меню вычислений и выбрав узел, для которого нужно просмотреть метрики. Метрики GPU доступны только на уровне отдельного узла. Метрики Spark недоступны для отдельных узлов.
Примечание.
Если вы не выберете определенный узел, результат будет усреднен по всем узлам в кластере (включая драйвер).
Аппаратные диаграммы метрик
Для просмотра в пользовательском интерфейсе вычислительных метрик доступны следующие аппаратные диаграммы метрик:
- Распределение нагрузки сервера: на этой диаграмме показана загрузка ЦП за последнюю минуту для каждого узла.
- Использование ЦП: процент времени, затраченного ЦП в каждом режиме, на основе общей стоимости ЦП в секундах. Метрика усреднена на основе любого интервала времени, отображаемого на диаграмме. Ниже перечислены отслеживаемые режимы.
- гость: если вы используете виртуальные машины, ЦП этих виртуальных машин используется
- iowait: время, затраченное на ожидание ввода-вывода
- простой: время ЦП не было ничего делать
- irq: время, затраченное на запросы прерываний
- приятно: время, используемое процессами, которые имеют положительную приятность, что означает более низкий приоритет, чем другие задачи
- softirq: время, затраченное на запросы на прерывание программного обеспечения
- кража: если вы являетесь виртуальной машиной, то время, когда другие виртуальные машины "украли" из ЦП
- система: время, затраченное на ядро
- пользователь: время, затраченное на пользовательское поле
- Использование памяти: общее использование памяти в каждом режиме, измеряемое в байтах и среднее значение на основе любого интервала времени, отображаемого на диаграмме. Отслеживаются следующие типы использования:
- используется: используемая память (включая память, используемую фоновыми процессами, выполняемыми на вычислительных ресурсах)
- бесплатно: неиспользуемая память
- буфер: память, используемая буферами ядра
- кэширован: память, используемая кэшем файловой системы на уровне ОС
- Использование буфера памяти: общее использование буфера памяти по каждому режиму, измеряемое в байтах и среднее значение на основе любого интервала времени, отображаемого на диаграмме.
- Свободное пространство файловой системы: общее использование файловой системы по каждой точке подключения, измеряемое в байтах и среднее значение в зависимости от интервала времени, отображаемого на диаграмме.
- Получено через сеть: количество байтов, полученных через сеть каждым устройством, в среднем на основе любого интервала времени, отображаемого на диаграмме.
- Передается через сеть: количество байтов, передаваемых по сети каждым устройством, в среднем на основе любого интервала времени, отображаемого на диаграмме.
- Число активных узлов. Это показывает количество активных узлов при каждом метке времени для заданного вычисления.
Диаграммы метрик Spark
Для просмотра в пользовательском интерфейсе вычислительных метрик доступны следующие диаграммы метрик Spark:
- Распределение нагрузки сервера: на этой диаграмме показана загрузка ЦП за последнюю минуту для каждого узла.
- Активные задачи: общее количество задач, выполняемых в любое время, усредненное на основе любого интервала времени, отображаемого на диаграмме.
- Общее количество неудачных задач: общее количество задач, которые завершились сбоем в исполнителях, в среднем отсчитываются в зависимости от интервала времени, отображаемого на диаграмме.
- Общее количество завершенных задач: общее количество задач, выполненных в исполнителях, в среднем на основе любого интервала времени, отображаемого на диаграмме.
- Общее количествозадач: общее количество всех задач (выполнение, сбой и завершение) в исполнителях, среднее из которых зависит от интервала времени, отображаемого на диаграмме.
- Общее количество операций чтения: общий размер данных перетасовки считывания, измеряемый в байтах и усредненный на основе любого интервала времени, отображаемого на диаграмме.
Shuffle read
означает сумму сериализованных данных чтения на всех исполнителях в начале этапа. - Общий объем записи с перетасовки: общий размер данных записи с перетасовками, измеряемый в байтах и среднее значение на основе любого интервала времени, отображаемого на диаграмме.
Shuffle Write
— это сумма всех записанных сериализованных данных для всех исполнителей перед передачей (обычно в конце этапа). - Общая длительность задачи: общее время, затраченное на выполнение задач для исполнителей, измеряемое в секундах и среднее значение на основе интервала времени, отображаемого на диаграмме.
Диаграммы метрик GPU
Примечание.
Метрики GPU доступны только в Databricks Runtime ML 13.3 и выше.
Для просмотра в пользовательском интерфейсе вычислительных метрик доступны следующие диаграммы метрик GPU:
- Распределение нагрузки сервера: на этой диаграмме показана загрузка ЦП за последнюю минуту для каждого узла.
- Использование декодировщика GPU: процент использования декодировщика GPU в среднем на основе того интервала времени, который отображается на диаграмме.
- Использование кодировщика GPU: процент использования кодировщика GPU, среднее значение в зависимости от интервала времени, отображаемого на диаграмме.
- Использование буфера памяти буфера кадров на GPU: использование памяти буфера кадра, измеряемое в байтах и среднее значение на основе любого интервала времени, отображаемого на диаграмме.
- Использование памяти gpu на gpu: процент использования памяти GPU, в среднем отсреднированный на основе любого интервала времени, отображаемого на диаграмме.
- Использование GPU: процент использования GPU, средний из которого зависит от интервала времени, отображаемого на диаграмме.
Устранение неполадок
Если в течение периода отображаются неполные или отсутствующие метрики, это может быть одно из следующих проблем:
- Сбой в службе Databricks, ответственной за запросы и хранение метрик.
- Проблемы с сетью на стороне клиента.
- Вычисление находится или находится в неработоспособном состоянии.