Поделиться через


Типы визуализации

В этой статье описаны типы визуализаций, доступные для использования в записных книжках Azure Databricks и в Databricks SQL, и показано, как создать пример каждого типа визуализации.

Примечание.

Сведения о типах визуализаций, доступных для панелей мониторинга AI/BI, см. в разделе Типы визуализаций панели мониторинга.

Гистограмма

Линейчатые диаграммы представляют собой изменение метрик с течением времени или отображение пропорциональности, аналогичной круговой диаграмме.

Примечание.

Столбчатые диаграммы поддерживают агрегации на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64 тыс. строк данных без усечения результирующего набора.

Пример линейчатой диаграммы

значений конфигурации: для визуализации линейчатой диаграммы заданы следующие значения:

  • Столбец X:
    • Столбец набора данных: o_orderdate
    • Уровень даты: Months
  • Столбцы Y:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Sum
  • Группировать по (столбец набора данных): o_orderpriority
  • Укладка: Stack
  • Имя оси X (переопределение значения по умолчанию): Order month
  • Имя оси Y (переопределение значения по умолчанию): Total price

Параметры конфигурации: параметры конфигурации линейчатой диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для визуализации линейчатой диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

График

Графики представляют собой изменение одной или нескольких метрик с течением времени.

Примечание.

Линейные графики поддерживают агрегирования серверной части, поддерживая запросы, возвращающие более 64K строк данных без усечения результатов.

Пример графиков

Конфигурационные значения: для визуализации линейного графика заданы следующие значения:

  • Столбец X:
    • Столбец набора данных: o_orderdate
    • Уровень даты: Years
  • Столбцы Y:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Average
  • Группировать по (столбец набора данных): o_orderpriority
  • Имя оси X (переопределение значения по умолчанию): Order year
  • Имя оси Y (переопределение значения по умолчанию): Average price

Параметры конфигурации: параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для визуализации этой диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Диаграмма области

Диаграммы областей объединяют линейчатую и столбчатую диаграмму, чтобы показать, как числовые значения одной или нескольких групп изменяются в зависимости от изменения второй переменной, как правило, времени. Эти диаграммы часто используются, чтобы показать изменений воронки продаж с течением времени.

Примечание.

Объемные диаграммы поддерживают агрегирование на серверной стороне, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без сокращения результата.

Пример диаграммы области

значения конфигурации: для визуализации областной диаграммы были заданы следующие значения:

  • Столбец X:
    • Столбец набора данных: o_orderdate
    • Уровень даты: Years
  • Столбцы Y:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Sum
  • Группировать по (столбец набора данных): o_orderpriority
  • Укладка: Stack
  • Имя оси X (переопределение значения по умолчанию): Order year
  • Имя оси Y (переопределение значения по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации диаграммы области см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для визуализации диаграммы с областями был использован следующий SQL-запрос для создания набора данных.

select * from samples.tpch.orders

Круговая диаграмма

Круговая диаграмма показывает пропорциональность между метриками. Эти диаграммы не предназначены для передачи данных временных рядов.

Примечание.

Круговые диаграммы поддерживают агрегаты серверной части, обеспечивая возможность выполнения запросов, возвращающих более 64 тысяч строк данных, без обрезки результирующего набора.

Пример круговой диаграммы

Значения конфигурации: для визуализации этой круговой диаграммы были установлены следующие значения:

  • Столбец X (столбец набора данных): o_orderpriority
  • Столбцы Y:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Sum
  • Метка (переопределите значение по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации круговой диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для визуализации круговой диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Гистограммные диаграммы

Гистограмма отображает частоту появления определенного значения в наборе данных. Гистограмма помогает понять, имеет ли набор данных значения, кластеризованные вокруг небольшого количества диапазонов или более распределенные. Гистограмма отображается в виде линейчатой диаграммы, в которой вы управляете количеством разных полос (также называемых ячейками).

Примечание.

Гистограммные диаграммы поддерживают серверные агрегации, обеспечивая обработку запросов, возвращающих более 64 тыс. строк данных без усечения результирующего набора.

Пример гистограммы

значения конфигурации: для визуализации этого гистограммного графика были заданы следующие значения:

  • Столбец X (столбец набора данных): o_totalprice
  • Количество ячеек: 20
  • Имя оси X (переопределение значения по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации гистограммы см . в параметрах конфигурации гистограммы.

SQL-запрос. Для визуализации диаграммы гистограммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Диаграмма тепловой карты

Диаграммы тепловой карты смешивают функции линейчатых диаграмм, стеков и пузырьковых диаграмм, что позволяет визуализировать числовые данные с помощью цветов. Общая цветовая палитра для тепловой карты показывает самые высокие значения с использованием более теплых цветов, таких как оранжевый или красный, и самые низкие значения с использованием более холодных цветов, таких как синий или фиолетовый.

Например, рассмотрим следующую тепловую карту, которая визуализирует наиболее часто встречающиеся расстояния поездок на такси и группирует результаты по дню недели, расстоянию и общей сумме оплаты.

Примечание.

Диаграммы тепловой карты поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.

Пример тепловой карты

значения конфигурации: для этой визуализации диаграммы тепловой карты были заданы следующие значения:

  • Столбец X (столбец набора данных): o_orderpriority
  • Столбцы Y (столбец набора данных): o_orderstatus
  • Столбец цвета:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Average
  • Имя оси X (переопределение значения по умолчанию): Order priority
  • Имя оси Y (переопределение значения по умолчанию): Order status
  • Имя цвета (переопределение значения по умолчанию): Average price
  • Цветовая схема (переопределение значения по умолчанию): YIGnBu

Параметры конфигурации: параметры конфигурации тепловой карты см. в разделе "Параметры конфигурации диаграммы тепловой карты".

SQL-запрос: для визуализации диаграммы тепловой карты для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Точечная диаграмма

Точечные визуализации обычно используются для отображения связи между двумя числовыми переменными. Кроме того, третье измерение может быть закодировано цветом, чтобы показать, как числовые переменные отличаются между группами.

Примечание.

Точечные диаграммы поддерживают агрегации серверной части и поддерживают запросы, возвращающие более 64 тысяч строк данных без усечения результирующего набора.

Пример точечной диаграммы

значения конфигурации: для этой визуализации точечной диаграммы были заданы следующие значения:

  • Столбец X (столбец набора данных): l_quantity
  • Столбец Y (столбец набора данных): l_extendedprice
  • Группировать по (столбец набора данных): l_returnflag
  • Имя оси X (переопределение значения по умолчанию): Quantity
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации: параметры конфигурации точечной диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для этой визуализации точечной диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.lineitem

Пузырьковая диаграмма

Пузырьковые диаграммы — это точечные диаграммы, где размер каждого маркера точек отражает соответствующую метрику.

Примечание.

Пузырьковые диаграммы поддерживают агрегации на стороне сервера, обеспечивая возможность обработки запросов, возвращающих более 64 тысяч строк данных без обрезки результирующего набора данных.

Пример пузырьков

значения конфигурации: для этой визуализации пузырьковой диаграммы были заданы следующие значения:

  • X (столбец набора данных): l_quantity
  • Столбцы Y (столбец набора данных): l_extendedprice
  • Группировать по (столбец набора данных): l_returnflag
  • Столбец размера пузырька (столбец набора данных): l_tax
  • Коэффициент размера пузыря: 20
  • Размер пузыря пропорционален: Area
  • Имя оси X (переопределение значения по умолчанию): Quantity
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации: параметры конфигурации пузырьковой диаграммы см . в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для этой визуализации пузырьковой диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.lineitem where l_quantity < 45

Прямоугольная диаграмма

Визуализация прямоугольной диаграммы показывает сводку распределения числовых данных, при необходимости сгруппированную по категориям. С помощью визуализации диаграммы типа "боксплот" можно быстро сравнить диапазоны значений по категориям и визуально оценить местоположение, разброс и асимметрию значений через их квартили. В каждом поле темная линия показывает межквартильный диапазон. Дополнительные сведения о интерпретации визуализаций графиков прямоугольник см. в статье "Диаграмма", размещенной в Википедии.

Примечание.

Прямоугольные диаграммы поддерживают только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример диаграммы

значения конфигурации: для этой визуализации диаграммы типа бокс заданы следующие значения:

  • Столбец X (столбец набора данных): l_returnflag
  • Столбцы Y (столбец набора данных): l_extendedprice
  • Группировать по столбцу набора данных: l_shipmode
  • Имя оси X (переопределение значения по умолчанию): Return flag
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации. Параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для этой визуализации диаграммы типа «коробка» использовался следующий SQL-запрос для создания набора данных.

select * from samples.tpch.lineitem

Диаграмма со списком

Комбо-диаграммы объединяют линии и линейчатые диаграммы, чтобы представить изменения с течением времени с пропорциональностью.

Примечание.

Сводные диаграммы поддерживают агрегацию на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без обрезки результатов.

Пример со списком

значения конфигурации: для этой визуализации комбинированной диаграммы были заданы следующие значения:

  • Столбец X:
    • Столбец набора данных: l_shipdate
    • Уровень даты: Months
  • Столбцы Y:
    • Первый столбец набора данных: l_extendedprice
    • Тип агрегирования: среднее
    • Второй столбец набора данных: l_quantity
    • Тип агрегирования: среднее
  • Имя оси X (переопределение значения по умолчанию): Ship date
  • Левое имя оси Y (переопределите значение по умолчанию): Quantity
  • Правое имя оси Y (переопределите значение по умолчанию): Average price
  • Серия:
    • Order1 (столбец набора данных): AVG(l_extendedprice)
    • Ось Y: справа
    • Тип: Строка
    • Order2 (столбец набора данных): AVG(l_quantity)
    • Ось Y: слева
    • Тип: линейчатая строка

Параметры конфигурации: параметры конфигурации диаграммы со списком см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для этой визуализации составной диаграммы для создания набора данных был использован следующий SQL-запрос.

select * from samples.tpch.lineitem

Анализ когорты

Анализ когорты исследует результаты предопределенных групп, называемых когортами, по мере их прохождения через набор этапов. Визуализация когорты агрегирует только даты (она позволяет выполнять ежемесячные агрегаты). Он не выполняет никакой другой агрегации данных в результирующем наборе. Все остальные агрегаты выполняются в самом запросе.

Пример когорты

значения конфигурации: для этой визуализации когорты были заданы следующие значения:

  • Дата (контейнер) (столбец базы данных): cohort_month
  • Этап (столбец базы данных): months
  • Размер группы (столбец базы данных): size
  • Значение этапа (столбец базы данных): active
  • Интервал времени: monthly

Параметры конфигурации: параметры конфигурации когорты см . в параметрах конфигации диаграммы когорты.

SQL-запрос. Для этой визуализации когорты используется следующий SQL-запрос для создания набора данных.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Отображение счетчика

Счетчики отображают одно значение в видном виде, с параметром сравнения их с целевым значением. Чтобы использовать счетчики, укажите, какой ряд данных отображается в визуализации счетчика для столбца значений и целевого столбца .

Примечание.

Счетчик поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример счетчика

параметры конфигурации: для этой визуализации счетчика были установлены следующие значения:

  • Столбец значений
    • Столбец набора данных: avg(o_totalprice)
    • Строка 1:
  • Целевой столбец:
    • Столбец набора данных: avg(o_totalprice)
    • Строка 2:
  • Формат целевого значения: Включение

SQL-запрос: для этой визуализации счетчика для создания набора данных использовался следующий SQL-запрос.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Визуализация воронки

Визуализация воронки помогает анализировать изменение метрик на разных этапах. Чтобы использовать воронку, укажите step и столбец value.

Примечание.

Воронка поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример воронки

значения конфигурации: для этой визуализации воронки были заданы следующие значения:

  • Столбец шага (столбец набора данных): o_orderstatus
  • Столбец значений (столбец набора данных): Revenue

SQL-запрос. Для этой визуализации воронки для создания набора данных использовался следующий SQL-запрос.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

визуализация карты (Хороплет)

В хороплетных визуализациях географические области, такие как страны или штаты, окрашиваются в соответствии с суммарными значениями каждого ключевого столбца. Запрос должен возвращать географические объекты по имени.

Примечание.

Визуализации Choropleth не агрегируют данные в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Пример map choropleth

значения конфигурации: для этой хороплетной визуализации были заданы следующие значения:

  • Карта (столбец набора данных): Countries
  • Географический столбец (столбец набора данных): Country
  • Географический тип: короткое имя
  • Столбец значений (столбец набора данных): Revenue
  • Режим кластеризации: эквивалентный

Параметры конфигурации: параметры конфигурации choropleth см . в разделе параметров конфигурации хороплета.

SQL-запрос: для создания набора данных для этой хороплетной визуализации использовался следующий SQL-запрос.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Визуализация карты маркеров

В визуализациях маркеров маркер помещается в набор координат на карте. Результат запроса должен возвращать пару "широта — долгота".

Примечание.

Маркер не выполняет агрегирование данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Пример маркера карты

Этот пример маркера создается из набора данных, включающего значения широты и долготы, которые недоступны в примерах наборов данных Databricks. Параметры конфигурации хороплей см. в разделе "Параметры конфигурации маркера".

Визуализация сводной таблицы

Визуализация сводной таблицы объединяет записи из результата запроса в новое табличное отображение. Это аналогично оператору PIVOT или GROUP BY в SQL. Вы настраиваете визуализацию сводной таблицы, перетаскивая поля.

Примечание.

Сводные таблицы поддерживают серверные агрегации, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без усечения результирующего набора. Однако таблица сводной таблицы (устаревшая версия) поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример сводной таблицы

значения конфигурации: для этой визуализации сводной таблицы были заданы следующие значения:

  • Выберите строки (столбец набора данных): l_returnflag
  • Выберите столбцы (столбец набора данных): l_shipmode
  • Ячейка
    • Колонка набора данных: l_quantity
    • Тип агрегирования: Сумма
    • Цветные ячейки по значению: Вкл.

SQL-запрос. Для этой визуализации сводной таблицы использовался следующий SQL-запрос для набора данных.

select * from samples.tpch.lineitem

Sankey

Схема sankey визуализирует поток из одного набора значений в другой.

Примечание.

Визуализации Sankey не выполняют агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Пример Sankey

SQL-запрос: для этой визуализации Sankey для создания набора данных использовался следующий SQL-запрос.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Последовательность Sunburst

Схема солнечных лучей помогает визуализировать иерархические данные с помощью концентрических кругов.

Примечание.

Последовательность Sunburst не выполняет агрегирование данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Пример Sunburst

SQL-запрос: для этой визуализации солнечных лучей для создания набора данных использовался следующий SQL-запрос.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Стол

Визуализация таблицы отображает данные в стандартной таблице, но с возможностью ручного переупорядочения, скрытия и форматирования данных. См. параметры таблицы.

Примечание.

Визуализации таблиц не выполняют агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Параметры конфигурации таблицы см. в параметрах конфигурации таблицы.

Облако Word

Визуальное облако слова представляет частоту, которую слово происходит в данных.

Примечание.

Облако Word поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример облака Word

значения конфигурации: для этой визуализации облака слов были заданы следующие значения: тест.

  • Столбец слов (столбец набора данных): o_comment
  • Ограничение длины слов: min = 5
  • Ограничение частоты: min = 2

SQL-запрос: для этой визуализации облака word для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders