Типы визуализации
В этой статье описаны типы визуализаций, доступные для использования в записных книжках Azure Databricks и в Databricks SQL, и показано, как создать пример каждого типа визуализации.
Примечание.
Сведения о типах визуализаций, доступных для панелей мониторинга ИИ/BI, см. в разделе "Типы визуализаций панели мониторинга".
Гистограмма
Линейчатые диаграммы представляют собой изменение метрик с течением времени или отображение пропорциональности, аналогичной круговой диаграмме.
Примечание.
Линейчатые диаграммы поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.
Значения конфигурации: для визуализации линейчатой диаграммы были заданы следующие значения:
- Столбец X:
- Столбец набора данных:
o_orderdate
- Уровень даты:
Months
- Столбец набора данных:
- Столбцы Y:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Sum
- Столбец набора данных:
- Группировать по (столбец набора данных):
o_orderpriority
- Укладка:
Stack
- Имя оси X (переопределение значения по умолчанию):
Order month
- Имя оси Y (переопределение значения по умолчанию):
Total price
Параметры конфигурации: параметры конфигурации линейчатой диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для визуализации линейчатой диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
График
Графики представляют собой изменение одной или нескольких метрик с течением времени.
Примечание.
Графики поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.
Значения конфигурации: для этой визуализации диаграммы были заданы следующие значения:
- Столбец X:
- Столбец набора данных:
o_orderdate
- Уровень даты:
Years
- Столбец набора данных:
- Столбцы Y:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Average
- Столбец набора данных:
- Группировать по (столбец набора данных):
o_orderpriority
- Имя оси X (переопределение значения по умолчанию):
Order year
- Имя оси Y (переопределение значения по умолчанию):
Average price
Параметры конфигурации: параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для визуализации этой графики для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Диаграмма области
Диаграммы областей объединяют линейчатую и линейчатую диаграмму, чтобы показать, как количество числовых значений одной или нескольких групп изменяется на протяжении хода выполнения второй переменной, как правило, времени. Эти диаграммы часто используются, чтобы показать изменений воронки продаж с течением времени.
Примечание.
Диаграммы областей поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64 КБ строк данных без усечения результируемого набора.
Значения конфигурации: для визуализации диаграммы области были заданы следующие значения:
- Столбец X:
- Столбец набора данных:
o_orderdate
- Уровень даты:
Years
- Столбец набора данных:
- Столбцы Y:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Sum
- Столбец набора данных:
- Группировать по (столбец набора данных):
o_orderpriority
- Укладка:
Stack
- Имя оси X (переопределение значения по умолчанию):
Order year
- Имя оси Y (переопределение значения по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации диаграммы области см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для визуализации диаграммы этой области для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Круговая диаграмма
Круговая диаграмма показывает пропорциональность между метриками. Эти диаграммы не предназначены для передачи данных временных рядов.
Примечание.
Круговая диаграмма поддерживает агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.
Значения конфигурации: для этой визуализации круговой диаграммы были заданы следующие значения:
- Столбец X (столбец набора данных):
o_orderpriority
- Столбцы Y:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Sum
- Столбец набора данных:
- Метка (переопределите значение по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации круговой диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для визуализации круговой диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Гистограммные диаграммы
Гистограмма отображает частоту появления определенного значения в наборе данных. Гистограмма помогает определить, в каком диапазоне находится кластер значений набора данных. Гистограмма отображается в виде линейчатой диаграммы, в которой можно управлять количеством отображаемых столбиков (также называемых контейнерами).
Примечание.
Гистограммные диаграммы поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.
Значения конфигурации: для визуализации диаграммы гистограммы были заданы следующие значения:
- Столбец X (столбец набора данных):
o_totalprice
- Количество ячеек: 20
- Имя оси X (переопределение значения по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации гистограммы см . в параметрах конфигурации гистограммы.
SQL-запрос. Для визуализации диаграммы гистограммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Диаграмма тепловой карты
Диаграммы тепловой карты смешивают функции линейчатых диаграмм, стеков и пузырьковых диаграмм, что позволяет визуализировать числовые данные с помощью цветов. Стандартная цветовая палитра для тепловой карты показывает максимальные значения оранжевым или красным цветом, а наименьшие — синим или сиреневым.
Например, рассмотрим следующую тепловую карту, которая визуализирует наиболее часто встречающиеся расстояния поездок на такси и группирует результаты по дню недели, расстоянию и общей сумме оплаты.
Примечание.
Диаграммы тепловой карты поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.
Значения конфигурации: для визуализации диаграммы тепловой карты были заданы следующие значения:
- Столбец X (столбец набора данных):
o_orderpriority
- Столбцы Y (столбец набора данных):
o_orderstatus
- Столбец цвета:
- Столбец набора данных:
o_totalprice
- Тип агрегирования:
Average
- Столбец набора данных:
- Имя оси X (переопределение значения по умолчанию):
Order priority
- Имя оси Y (переопределение значения по умолчанию):
Order status
- Цветовая схема (переопределение значения по умолчанию):
YIGnBu
Параметры конфигурации: параметры конфигурации тепловой карты см. в разделе "Параметры конфигурации диаграммы тепловой карты".
SQL-запрос. Для визуализации диаграммы тепловой карты для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders
Точечная диаграмма
Точечные визуализации обычно используются для отображения связи между двумя числовыми переменными. Кроме того, третье измерение может быть закодировано цветом, чтобы показать, как числовые переменные отличаются между группами.
Примечание.
Точечная диаграмма поддерживает агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64 КБ строк данных без усечения результируемого набора.
Значения конфигурации: для этой визуализации точечной диаграммы были заданы следующие значения:
- Столбец X (столбец набора данных):
l_quantity
- Столбец Y (столбец набора данных):
l_extendedprice
- Группировать по (столбец набора данных):
l_returnflag
- Имя оси X (переопределение значения по умолчанию):
Quantity
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации: параметры конфигурации точечной диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для этой визуализации точечной диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.lineitem
Пузырьковая диаграмма
Пузырьковые диаграммы — это точечные диаграммы, где размер каждого маркера точек отражает соответствующую метрику.
Примечание.
Пузырьковые диаграммы поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.
Значения конфигурации: для этой визуализации пузырьковой диаграммы были заданы следующие значения:
- X (столбец набора данных):
l_quantity
- Столбцы Y (столбец набора данных):
l_extendedprice
- Группировать по (столбец набора данных):
l-returnflag
- Столбец размера пузырька (столбец набора данных):
l_tax
- Коэффициент размера пузыря: 20
- Имя оси X (переопределение значения по умолчанию):
Quantity
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации: параметры конфигурации пузырьковой диаграммы см . в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для визуализации пузырьковой диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.lineitem
Прямоугольная диаграмма
Визуализация прямоугольной диаграммы показывает сводку распределения числовых данных, при необходимости сгруппированную по категориям. С помощью визуализации диаграммы можно быстро сравнить диапазоны значений между категориями и визуализировать локализацию, распределение и отклонение групп значений через их квартиль. В каждом поле темная линия показывает межквартильный диапазон. Дополнительные сведения о интерпретации визуализаций графиков прямоугольник см. в статье "Диаграмма", размещенной в Википедии.
Примечание.
Прямоугольные диаграммы поддерживают только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
Значения конфигурации: для визуализации диаграммы в этом поле были заданы следующие значения:
- Столбец X (столбец набора данных):
l-returnflag
- Столбцы Y (столбец набора данных):
l_extendedprice
- Группировать по (столбец набора данных):
l_shipmode
- Имя оси X (переопределение значения по умолчанию):
Return flag1
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации. Параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для визуализации этой диаграммы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.lineitem
Диаграмма со списком
Комбо-диаграммы объединяют линии и линейчатые диаграммы, чтобы представить изменения с течением времени с пропорциональностью.
Примечание.
Диаграммы со списком поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64 КБ строк данных без усечения результируемого набора.
Значения конфигурации: для этой визуализации диаграммы со списком были заданы следующие значения:
- Столбец X (столбец набора данных):
l_shipdate
- Столбцы Y:
- Первый столбец набора данных:
l_extendedprice
- Тип агрегирования: среднее
- Второй столбец набора данных:
l_quantity
- Тип агрегирования: среднее
- Первый столбец набора данных:
- Имя оси X (переопределение значения по умолчанию):
Ship date
- Левое имя оси Y (переопределите значение по умолчанию):
Quantity
- Правое имя оси Y (переопределите значение по умолчанию):
Average price
- Серия:
- Order1 (столбец набора данных):
AVG(l_extendedprice)
- Ось Y: справа
- Тип: Строка
- Order2 (столбец набора данных):
AVG(l_quantity)
- Ось Y: слева
- Тип: линейчатая строка
- Order1 (столбец набора данных):
Параметры конфигурации: параметры конфигурации диаграммы со списком см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для этой визуализации диаграммы со списком для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.lineitem
Анализ когорты
Когортный анализ позволяет исследовать результаты предварительно определенных групп, называемых когортами, по мере прохождения ими ряда этапов. Визуализация когорты агрегирует только даты (она позволяет выполнять ежемесячные агрегаты). Он не выполняет другие агрегаты данных в результирующем наборе. Все остальные агрегаты выполняются в самом запросе.
Значения конфигурации: для этой репетиторной визуализации были заданы следующие значения:
- Дата (контейнер) (столбец базы данных):
cohort_month
- Этап (столбец базы данных):
months
- Размер совокупности контейнеров (столбец базы данных):
size
- Значение этапа (столбец базы данных):
active
- Интервал времени:
monthly
Параметры конфигурации: параметры конфигурации когорты см . в параметрах конфигации диаграммы когорты.
SQL-запрос. Для этой визуализации когорты для создания набора данных использовался следующий SQL-запрос.
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
Отображение счетчика
Счетчики отображают одно значение в видном виде, с параметром сравнения их с целевым значением. Чтобы использовать счетчики, укажите, какая строка данных будет отображаться в визуализации счетчика для столбца значения и целевого столбца.
Примечание.
Счетчик поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
Значения конфигурации: для этой визуализации счетчика были заданы следующие значения:
- Столбец значений
- Столбец набора данных:
avg(o_totalprice)
- Строка 1:
- Столбец набора данных:
- Целевой столбец:
- Столбец набора данных:
avg(o_totalprice)
- Строка 2:
- Столбец набора данных:
- Формат целевого значения: Включение
SQL-запрос. Для визуализации этого счетчика для создания набора данных использовался следующий SQL-запрос.
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
Визуализация воронки
Визуализация воронки помогает анализировать изменение метрик на разных этапах. Чтобы использовать воронку, укажите step
и value
столбец.
Примечание.
Воронка поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
Значения конфигурации: для этой визуализации воронки были заданы следующие значения:
- Столбец шага (столбец набора данных):
o_orderstatus
- Столбец значений (столбец набора данных):
Revenue
SQL-запрос. Для этой визуализации воронки для создания набора данных использовался следующий SQL-запрос.
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
Визуализация карты Choropleth
В визуализациях хороплей географических мест, таких как страны или штаты, цветом являются статистические значения каждого ключевого столбца. Запрос должен возвращать географические объекты по имени.
Примечание.
Визуализации Choropleth не делают агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
Значения конфигурации: для этой визуализации хороплей были заданы следующие значения:
- Карта (столбец набора данных):
Countries
- Географический столбец (столбец набора данных):
Nation
- Географический тип: короткое имя
- Столбец значений (столбец набора данных):
revenue
- Режим кластеризации: эквивалентный
Параметры конфигурации: параметры конфигурации choropleth см . в разделе параметров конфигурации хороплета.
SQL-запрос. Для этой визуализации хороплей для создания набора данных использовался следующий SQL-запрос.
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
Визуализация карты маркеров
В визуализациях маркеров маркер помещается в набор координат на карте. Результат запроса должен возвращать пару "широта — долгота".
Примечание.
Маркер не выполняет агрегирование данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
Этот пример маркера создается из набора данных, включающего значения широты и долготы, которые недоступны в примерах наборов данных Databricks. Параметры конфигурации хороплей см. в разделе "Параметры конфигурации маркера".
Визуализация таблицы сводной таблицы
Визуализация сводной таблицы объединяет записи из результата запроса в новое табличное отображение. Это аналогично оператору PIVOT
или GROUP BY
в SQL. Вы можете настроить визуализацию сводной таблицы с помощью полей перетаскивания.
Примечание.
Таблицы сводной таблицы поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64 КБ строк данных без усечения результируемого набора. Однако таблица сводной таблицы (устаревшая версия) поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
Пример таблицы сводной таблицы
Значения конфигурации: для этой визуализации сводной таблицы были заданы следующие значения:
- Выберите строки (столбец набора данных):
l_retkurnflag
- Выберите столбцы (столбец набора данных):
l_shipmode
- Ячейка
- Столбец набора данных:
l_quantity
- Тип агрегирования: Сумма
- Столбец набора данных:
SQL-запрос. Для этой визуализации сводной таблицы для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.lineitem
Sankey
Схема sankey визуализирует поток из одного набора значений в другой.
Примечание.
Визуализации Sankey не выполняют агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
SQL-запрос. Для этой визуализации Sankey для создания набора данных использовался следующий SQL-запрос.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Последовательность Sunburst
Схема солнечных лучей помогает визуализировать иерархические данные с помощью концентрических кругов.
Примечание.
Последовательность Sunburst не выполняет агрегирование данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
SQL-запрос. Для этой визуализации солнечных лучей для создания набора данных использовался следующий SQL-запрос.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Таблица
Визуализация таблицы отображает данные в стандартной таблице, но с возможностью ручного переупорядочения, скрытия и форматирования данных. См . параметры таблицы.
Примечание.
Визуализации таблиц не выполняют агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.
Параметры конфигурации таблицы см. в разделе "Параметры конфигурации таблицы".
Облако Word
Визуальное облако слова представляет частоту, которую слово происходит в данных.
Примечание.
Облако Word поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
Значения конфигурации: для этой визуализации облака word были заданы следующие значения: тест
- Столбец слов (столбец набора данных):
o_comment
- Ограничение длины слов: 5
- Ограничение частоты: 2
SQL-запрос. Для этой визуализации облака слова для создания набора данных использовался следующий SQL-запрос.
select * from samples.tpch.orders