Типы визуализации
В этой статье описаны типы визуализаций, доступные для использования в записных книжках Azure Databricks и в Databricks SQL, и показано, как создать пример каждого типа визуализации.
Примечание.
Сведения о типах визуализаций, доступных для панелей мониторинга AI/BI, см. в разделе Типы визуализаций панели мониторинга.
Гистограмма
Линейчатые диаграммы представляют собой изменение метрик с течением времени или отображение пропорциональности, аналогичной круговой диаграмме.
Примечание.
Столбчатые диаграммы поддерживают агрегации на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64 тыс. строк данных без усечения результирующего набора.
значений конфигурации: для визуализации линейчатой диаграммы заданы следующие значения:
- Столбец X:
- Столбец набора данных:
o_orderdate
- Уровень даты:
Months
- Столбец набора данных:
- Столбцы Y:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Sum
- Столбец набора данных:
- Группировать по (столбец набора данных):
o_orderpriority
- Укладка:
Stack
- Имя оси X (переопределение значения по умолчанию):
Order month
- Имя оси Y (переопределение значения по умолчанию):
Total price
Параметры конфигурации: параметры конфигурации линейчатой диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для визуализации линейчатой диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
График
Графики представляют собой изменение одной или нескольких метрик с течением времени.
Примечание.
Линейные графики поддерживают агрегирования серверной части, поддерживая запросы, возвращающие более 64K строк данных без усечения результатов.
Конфигурационные значения: для визуализации линейного графика заданы следующие значения:
- Столбец X:
- Столбец набора данных:
o_orderdate
- Уровень даты:
Years
- Столбец набора данных:
- Столбцы Y:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Average
- Столбец набора данных:
- Группировать по (столбец набора данных):
o_orderpriority
- Имя оси X (переопределение значения по умолчанию):
Order year
- Имя оси Y (переопределение значения по умолчанию):
Average price
Параметры конфигурации: параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для визуализации этой диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Диаграмма области
Диаграммы областей объединяют линейчатую и столбчатую диаграмму, чтобы показать, как числовые значения одной или нескольких групп изменяются в зависимости от изменения второй переменной, как правило, времени. Эти диаграммы часто используются, чтобы показать изменений воронки продаж с течением времени.
Примечание.
Объемные диаграммы поддерживают агрегирование на серверной стороне, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без сокращения результата.
значения конфигурации: для визуализации областной диаграммы были заданы следующие значения:
- Столбец X:
- Столбец набора данных:
o_orderdate
- Уровень даты:
Years
- Столбец набора данных:
- Столбцы Y:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Sum
- Столбец набора данных:
- Группировать по (столбец набора данных):
o_orderpriority
- Укладка:
Stack
- Имя оси X (переопределение значения по умолчанию):
Order year
- Имя оси Y (переопределение значения по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации диаграммы области см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для визуализации диаграммы с областями был использован следующий SQL-запрос для создания набора данных.
select * from samples.tpch.orders
Круговая диаграмма
Круговая диаграмма показывает пропорциональность между метриками. Эти диаграммы не предназначены для передачи данных временных рядов.
Примечание.
Круговые диаграммы поддерживают агрегаты серверной части, обеспечивая возможность выполнения запросов, возвращающих более 64 тысяч строк данных, без обрезки результирующего набора.
Значения конфигурации: для визуализации этой круговой диаграммы были установлены следующие значения:
- Столбец X (столбец набора данных):
o_orderpriority
- Столбцы Y:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Sum
- Столбец набора данных:
- Метка (переопределите значение по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации круговой диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для визуализации круговой диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Гистограммные диаграммы
Гистограмма отображает частоту появления определенного значения в наборе данных. Гистограмма помогает понять, имеет ли набор данных значения, кластеризованные вокруг небольшого количества диапазонов или более распределенные. Гистограмма отображается в виде линейчатой диаграммы, в которой вы управляете количеством разных полос (также называемых ячейками).
Примечание.
Гистограммные диаграммы поддерживают серверные агрегации, обеспечивая обработку запросов, возвращающих более 64 тыс. строк данных без усечения результирующего набора.
значения конфигурации: для визуализации этого гистограммного графика были заданы следующие значения:
- Столбец X (столбец набора данных):
o_totalprice
- Количество ячеек: 20
- Имя оси X (переопределение значения по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации гистограммы см . в параметрах конфигурации гистограммы.
SQL-запрос. Для визуализации диаграммы гистограммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Диаграмма тепловой карты
Диаграммы тепловой карты смешивают функции линейчатых диаграмм, стеков и пузырьковых диаграмм, что позволяет визуализировать числовые данные с помощью цветов. Общая цветовая палитра для тепловой карты показывает самые высокие значения с использованием более теплых цветов, таких как оранжевый или красный, и самые низкие значения с использованием более холодных цветов, таких как синий или фиолетовый.
Например, рассмотрим следующую тепловую карту, которая визуализирует наиболее часто встречающиеся расстояния поездок на такси и группирует результаты по дню недели, расстоянию и общей сумме оплаты.
Примечание.
Диаграммы тепловой карты поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.
значения конфигурации: для этой визуализации диаграммы тепловой карты были заданы следующие значения:
- Столбец X (столбец набора данных):
o_orderpriority
- Столбцы Y (столбец набора данных):
o_orderstatus
- Столбец цвета:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Average
- Столбец набора данных:
- Имя оси X (переопределение значения по умолчанию):
Order priority
- Имя оси Y (переопределение значения по умолчанию):
Order status
- Имя цвета (переопределение значения по умолчанию):
Average price
- Цветовая схема (переопределение значения по умолчанию):
YIGnBu
Параметры конфигурации: параметры конфигурации тепловой карты см. в разделе "Параметры конфигурации диаграммы тепловой карты".
SQL-запрос: для визуализации диаграммы тепловой карты для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Точечная диаграмма
Точечные визуализации обычно используются для отображения связи между двумя числовыми переменными. Кроме того, третье измерение может быть закодировано цветом, чтобы показать, как числовые переменные отличаются между группами.
Примечание.
Точечные диаграммы поддерживают агрегации серверной части и поддерживают запросы, возвращающие более 64 тысяч строк данных без усечения результирующего набора.
значения конфигурации: для этой визуализации точечной диаграммы были заданы следующие значения:
- Столбец X (столбец набора данных):
l_quantity
- Столбец Y (столбец набора данных):
l_extendedprice
- Группировать по (столбец набора данных):
l_returnflag
- Имя оси X (переопределение значения по умолчанию):
Quantity
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации: параметры конфигурации точечной диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для этой визуализации точечной диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.lineitem
Пузырьковая диаграмма
Пузырьковые диаграммы — это точечные диаграммы, где размер каждого маркера точек отражает соответствующую метрику.
Примечание.
Пузырьковые диаграммы поддерживают агрегации на стороне сервера, обеспечивая возможность обработки запросов, возвращающих более 64 тысяч строк данных без обрезки результирующего набора данных.
значения конфигурации: для этой визуализации пузырьковой диаграммы были заданы следующие значения:
- X (столбец набора данных):
l_quantity
- Столбцы Y (столбец набора данных):
l_extendedprice
- Группировать по (столбец набора данных):
l_returnflag
- Столбец размера пузырька (столбец набора данных):
l_tax
- Коэффициент размера пузыря: 20
- Размер пузыря пропорционален:
Area
- Имя оси X (переопределение значения по умолчанию):
Quantity
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации: параметры конфигурации пузырьковой диаграммы см . в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для этой визуализации пузырьковой диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.lineitem where l_quantity < 45
Прямоугольная диаграмма
Визуализация прямоугольной диаграммы показывает сводку распределения числовых данных, при необходимости сгруппированную по категориям. С помощью визуализации диаграммы типа "боксплот" можно быстро сравнить диапазоны значений по категориям и визуально оценить местоположение, разброс и асимметрию значений через их квартили. В каждом поле темная линия показывает межквартильный диапазон. Дополнительные сведения о интерпретации визуализаций графиков прямоугольник см. в статье "Диаграмма", размещенной в Википедии.
Примечание.
Прямоугольные диаграммы поддерживают только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
значения конфигурации: для этой визуализации диаграммы типа бокс заданы следующие значения:
- Столбец X (столбец набора данных):
l_returnflag
- Столбцы Y (столбец набора данных):
l_extendedprice
- Группировать по столбцу набора данных:
l_shipmode
- Имя оси X (переопределение значения по умолчанию):
Return flag
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации. Параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для этой визуализации диаграммы типа «коробка» использовался следующий SQL-запрос для создания набора данных.
select * from samples.tpch.lineitem
Диаграмма со списком
Комбо-диаграммы объединяют линии и линейчатые диаграммы, чтобы представить изменения с течением времени с пропорциональностью.
Примечание.
Сводные диаграммы поддерживают агрегацию на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без обрезки результатов.
значения конфигурации: для этой визуализации комбинированной диаграммы были заданы следующие значения:
- Столбец X:
- Столбец набора данных:
l_shipdate
- Уровень даты:
Months
- Столбец набора данных:
- Столбцы Y:
- Первый столбец набора данных:
l_extendedprice
- Тип агрегирования: среднее
- Второй столбец набора данных:
l_quantity
- Тип агрегирования: среднее
- Первый столбец набора данных:
- Имя оси X (переопределение значения по умолчанию):
Ship date
- Левое имя оси Y (переопределите значение по умолчанию):
Quantity
- Правое имя оси Y (переопределите значение по умолчанию):
Average price
- Серия:
- Order1 (столбец набора данных):
AVG(l_extendedprice)
- Ось Y: справа
- Тип: Строка
- Order2 (столбец набора данных):
AVG(l_quantity)
- Ось Y: слева
- Тип: линейчатая строка
- Order1 (столбец набора данных):
Параметры конфигурации: параметры конфигурации диаграммы со списком см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для этой визуализации составной диаграммы для создания набора данных был использован следующий SQL-запрос.
select * from samples.tpch.lineitem
Анализ когорты
Анализ когорты исследует результаты предопределенных групп, называемых когортами, по мере их прохождения через набор этапов. Визуализация когорты агрегирует только даты (она позволяет выполнять ежемесячные агрегаты). Он не выполняет никакой другой агрегации данных в результирующем наборе. Все остальные агрегаты выполняются в самом запросе.
значения конфигурации: для этой визуализации когорты были заданы следующие значения:
- Дата (контейнер) (столбец базы данных):
cohort_month
- Этап (столбец базы данных):
months
- Размер группы (столбец базы данных):
size
- Значение этапа (столбец базы данных):
active
- Интервал времени:
monthly
Параметры конфигурации: параметры конфигурации когорты см . в параметрах конфигации диаграммы когорты.
SQL-запрос. Для этой визуализации когорты используется следующий SQL-запрос для создания набора данных.
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
Отображение счетчика
Счетчики отображают одно значение в видном виде, с параметром сравнения их с целевым значением. Чтобы использовать счетчики, укажите, какой ряд данных отображается в визуализации счетчика для столбца значений и целевого столбца .
Примечание.
Счетчик поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
параметры конфигурации: для этой визуализации счетчика были установлены следующие значения:
- Столбец значений
- Столбец набора данных:
avg(o_totalprice)
- Строка 1:
- Столбец набора данных:
- Целевой столбец:
- Столбец набора данных:
avg(o_totalprice)
- Строка 2:
- Столбец набора данных:
- Формат целевого значения: Включение
SQL-запрос: для этой визуализации счетчика для создания набора данных использовался следующий SQL-запрос.
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
Визуализация воронки
Визуализация воронки помогает анализировать изменение метрик на разных этапах. Чтобы использовать воронку, укажите step
и столбец value
.
Примечание.
Воронка поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
значения конфигурации: для этой визуализации воронки были заданы следующие значения:
- Столбец шага (столбец набора данных):
o_orderstatus
- Столбец значений (столбец набора данных):
Revenue
SQL-запрос. Для этой визуализации воронки для создания набора данных использовался следующий SQL-запрос.
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
визуализация карты (Хороплет)
В хороплетных визуализациях географические области, такие как страны или штаты, окрашиваются в соответствии с суммарными значениями каждого ключевого столбца. Запрос должен возвращать географические объекты по имени.
Примечание.
Визуализации Choropleth не агрегируют данные в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
значения конфигурации: для этой хороплетной визуализации были заданы следующие значения:
- Карта (столбец набора данных):
Countries
- Географический столбец (столбец набора данных):
Country
- Географический тип: короткое имя
- Столбец значений (столбец набора данных):
Revenue
- Режим кластеризации: эквивалентный
Параметры конфигурации: параметры конфигурации choropleth см . в разделе параметров конфигурации хороплета.
SQL-запрос: для создания набора данных для этой хороплетной визуализации использовался следующий SQL-запрос.
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
Визуализация карты маркеров
В визуализациях маркеров маркер помещается в набор координат на карте. Результат запроса должен возвращать пару "широта — долгота".
Примечание.
Маркер не выполняет агрегирование данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
Этот пример маркера создается из набора данных, включающего значения широты и долготы, которые недоступны в примерах наборов данных Databricks. Параметры конфигурации хороплей см. в разделе "Параметры конфигурации маркера".
Визуализация сводной таблицы
Визуализация сводной таблицы объединяет записи из результата запроса в новое табличное отображение. Это аналогично оператору PIVOT
или GROUP BY
в SQL. Вы настраиваете визуализацию сводной таблицы, перетаскивая поля.
Примечание.
Сводные таблицы поддерживают серверные агрегации, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без усечения результирующего набора. Однако таблица сводной таблицы (устаревшая версия) поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
Пример сводной таблицы
значения конфигурации: для этой визуализации сводной таблицы были заданы следующие значения:
- Выберите строки (столбец набора данных):
l_returnflag
- Выберите столбцы (столбец набора данных):
l_shipmode
- Ячейка
- Колонка набора данных:
l_quantity
- Тип агрегирования: Сумма
- Цветные ячейки по значению: Вкл.
- Колонка набора данных:
SQL-запрос. Для этой визуализации сводной таблицы использовался следующий SQL-запрос для набора данных.
select * from samples.tpch.lineitem
Sankey
Схема sankey визуализирует поток из одного набора значений в другой.
Примечание.
Визуализации Sankey не выполняют агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
SQL-запрос: для этой визуализации Sankey для создания набора данных использовался следующий SQL-запрос.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Последовательность Sunburst
Схема солнечных лучей помогает визуализировать иерархические данные с помощью концентрических кругов.
Примечание.
Последовательность Sunburst не выполняет агрегирование данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
SQL-запрос: для этой визуализации солнечных лучей для создания набора данных использовался следующий SQL-запрос.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Стол
Визуализация таблицы отображает данные в стандартной таблице, но с возможностью ручного переупорядочения, скрытия и форматирования данных. См. параметры таблицы.
Примечание.
Визуализации таблиц не выполняют агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
Параметры конфигурации таблицы см. в параметрах конфигурации таблицы.
Облако Word
Визуальное облако слова представляет частоту, которую слово происходит в данных.
Примечание.
Облако Word поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
значения конфигурации: для этой визуализации облака слов были заданы следующие значения: тест.
- Столбец слов (столбец набора данных):
o_comment
- Ограничение длины слов: min = 5
- Ограничение частоты: min = 2
SQL-запрос: для этой визуализации облака word для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders