Типы визуализации
В этой статье описаны типы визуализаций, доступные для использования в записных книжках Azure Databricks и в Databricks SQL, и показано, как создать пример каждого типа визуализации.
Примечание.
Сведения о типах визуализаций, доступных для панелей мониторинга AI/BI, см. в разделе Типы визуализаций панели мониторинга.
Гистограмма
Линейчатые диаграммы представляют собой изменение метрик с течением времени или отображение пропорциональности, аналогичной круговой диаграмме.
Примечание.
Столбчатые диаграммы поддерживают агрегации на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без обрезки результата set.
Конфигурация values: для этой визуализации столбчатой диаграммы были использованы следующие valuesset:
- X column:
- Набор данных column:
o_orderdate
- Уровень даты:
Months
- Набор данных column:
- Y columns:
- Набор данных column:
o_totalprice
- Тип агрегирования:
Sum
- Набор данных column:
- Группировать по (набор данных column):
o_orderpriority
- Укладка:
Stack
- Имя оси X (переопределение значения по умолчанию):
Order month
- Имя оси Y (переопределение значения по умолчанию):
Total price
Параметры конфигурации: параметры конфигурации линейчатой диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для визуализации линейчатой диаграммы используется следующий SQL-запрос для generate данных set.
select * from samples.tpch.orders
График
Графики представляют собой изменение одной или нескольких метрик с течением времени.
Примечание.
Линейные графики поддерживают агрегации серверных, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результата set.
конфигурация values: для этой визуализации линейного графика были setследующие values:
- X column:
- набор данных column:
o_orderdate
- Уровень даты:
Years
- набор данных column:
- Y columns:
- Набор данных column:
o_totalprice
- Тип агрегирования:
Average
- Набор данных column:
- Группировать по (набор данных column):
o_orderpriority
- Имя оси X (переопределение значения по умолчанию):
Order year
- Имя оси Y (переопределение значения по умолчанию):
Average price
Параметры конфигурации: параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для визуализации линейного графика использовался следующий SQL-запрос для generate данных set.
select * from samples.tpch.orders
Диаграмма области
Диаграммы областей объединяют линейчатую и линейчатую диаграмму, чтобы показать, как числовые values одной или нескольких групп изменяются по сравнению со временем. Эти диаграммы часто используются, чтобы показать изменений воронки продаж с течением времени.
Примечание.
Диаграммы областей поддерживают агрегацию на стороне сервера, обеспечивая возможность выполнения запросов, возвращающих более 64 тыс. строк данных без сокращения результата set.
конфигурации values: для визуализации этой областной диаграммы values были set:
- X column:
- Набор данных column:
o_orderdate
- Уровень даты:
Years
- Набор данных column:
- Y columns:
- Набор данных column:
o_totalprice
- Тип агрегирования:
Sum
- Набор данных column:
- Группировать по (набор данных column):
o_orderpriority
- Укладка:
Stack
- Имя оси X (переопределение значения по умолчанию):
Order year
- Имя оси Y (переопределение значения по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации диаграммы области см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для визуализации этой диаграммы областей использовался следующий SQL-запрос для generate данных set.
select * from samples.tpch.orders
Круговая диаграмма
Круговая диаграмма показывает пропорциональность между метриками. Эти диаграммы не предназначены для передачи данных временных рядов.
Примечание.
Круговые диаграммы поддерживают агрегации на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64 тыс. строк данных без сокращения результата set.
настройка values: для этой визуализации круговой диаграммы были следующие valuesset:
- X column (набор данных column):
o_orderpriority
- Y columns:
- Набор данных column:
o_totalprice
- Тип агрегирования:
Sum
- Набор данных column:
- Метка (переопределите значение по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации круговой диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для этой визуализации круговой диаграммы использовался следующий SQL-запрос для generate данных set.
select * from samples.tpch.orders
Гистограммные диаграммы
Гистограмма отображает частоту появления определенного значения в наборе данных. Гистограмма помогает понять, имеет ли набор данных values, которые кластеризованы вокруг небольшого количества диапазонов или более распределены. Гистограмма отображается в виде линейчатой диаграммы, в которой вы управляете количеством разных полос (также называемых ячейками).
Примечание.
Гистограммные диаграммы поддерживают серверные агрегации, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без усечения результата set.
values : для этой визуализации диаграммы-гистограммы были следующие valuesset:
- X column (набор данных column):
o_totalprice
- Количество ячеек: 20
- Имя оси X (переопределение значения по умолчанию):
Total price
Параметры конфигурации. Параметры конфигурации гистограммы см . в параметрах конфигурации гистограммы.
SQL-запрос: для визуализации гистограммы для generate данных setиспользовался следующий SQL-запрос.
select * from samples.tpch.orders
Диаграмма тепловой карты
Диаграммы тепловой карты смешивают функции линейчатых диаграмм, стеков и пузырьковых диаграмм, что позволяет визуализировать числовые данные с помощью цветов. Обычная цветовая палитра для тепловой карты показывает самые высокие values при помощи более теплых цветов, таких как оранжевый или красный, и самые низкие values – при помощи более холодных цветов, таких как синий или фиолетовый.
Например, рассмотрим следующую тепловую карту, которая визуализирует наиболее часто встречающиеся расстояния поездок на такси и группирует результаты по дню недели, расстоянию и общей сумме оплаты.
Примечание.
Тепловые карты поддерживают агрегации серверной части, поддерживая запросы, возвращающие более 64 тысяч строк данных без усечения результата set.
конфигурации values: для этой визуализации тепловой карты следующие values были set:
- X column (набор данных column):
o_orderpriority
- Y columns (набор данных column):
o_orderstatus
- Цвет column:
- Набор данных column:
o_totalprice
- Тип агрегирования:
Average
- Набор данных column:
- Имя оси X (переопределение значения по умолчанию):
Order priority
- Имя оси Y (переопределение значения по умолчанию):
Order status
- Цветовая схема (переопределение значения по умолчанию):
YIGnBu
Параметры конфигурации: параметры конфигурации тепловой карты см. в разделе "Параметры конфигурации диаграммы тепловой карты".
SQL-запрос. Для этой визуализации диаграммы тепловой карты использовался следующий SQL-запрос для generate данных set.
select * from samples.tpch.orders
Точечная диаграмма
Точечные визуализации обычно используются для отображения связи между двумя числовыми переменными. Кроме того, третье измерение может быть закодировано цветом, чтобы показать, как числовые переменные отличаются между группами.
Примечание.
Точечные диаграммы поддерживают агрегации на серверной стороне, обеспечивая поддержку запросов, возвращающих более 64 тыс. строк данных без усечения результата set.
конфигурация values: для этой визуализации точечной диаграммы следующие values были set:
- X column (набор данных column):
l_quantity
- Y column (набор данных column):
l_extendedprice
- Группировать по (набор данных column):
l_returnflag
- Имя оси X (переопределение значения по умолчанию):
Quantity
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации: параметры конфигурации точечной диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для этой визуализации точечной диаграммы использовался следующий SQL-запрос для generate данных set.
select * from samples.tpch.lineitem
Пузырьковая диаграмма
Пузырьковые диаграммы — это точечные диаграммы, where размер каждого маркера точек отражает соответствующую метрику.
Примечание.
Пузырьковые диаграммы поддерживают агрегацию на стороне сервера, обеспечивая обработку запросов, возвращающих более 64 тыс. строк данных без усечения результата set.
конфигурация values: для данной визуализации пузырьковой диаграммы использованы следующие valuesset:
- X (набор данных column):
l_quantity
- Y columns (набор данных column):
l_extendedprice
- Группировать по (набор данных column):
l-returnflag
- Размер пузырька column (набор данных column):
l_tax
- Коэффициент размера пузыря: 20
- Имя оси X (переопределение значения по умолчанию):
Quantity
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации: параметры конфигурации пузырьковой диаграммы см . в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для этой визуализации пузырьковой диаграммы использовался следующий SQL-запрос для generate данных set.
select * from samples.tpch.lineitem
Прямоугольная диаграмма
Визуализация прямоугольной диаграммы показывает сводку распределения числовых данных, при необходимости сгруппированную по категориям. С помощью визуализации коробчатой диаграммы можно быстро сравнить диапазоны значений между категориями и визуализировать местоположение, разброс и асимметрию групп values через их квартиль. В каждом поле темная линия показывает межквартильный диапазон. Дополнительные сведения о интерпретации визуализаций графиков прямоугольник см. в статье "Диаграмма", размещенной в Википедии.
Примечание.
Прямоугольные диаграммы поддерживают только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
конфигурация values: для этой визуализации диаграммы values были set:
- X column (набор данных column):
l-returnflag
- Y columns (набор данных column):
l_extendedprice
- Группировать по (набор данных column):
l_shipmode
- Имя оси X (переопределение значения по умолчанию):
Return flag1
- Имя оси Y (переопределение значения по умолчанию):
Extended price
Параметры конфигурации. Параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос: для визуализации диаграммы ниже используется следующий SQL-запрос для generate данных set.
select * from samples.tpch.lineitem
Диаграмма со списком
Комбо-диаграммы объединяют линии и линейчатые диаграммы, чтобы представить изменения с течением времени с пропорциональностью.
Примечание.
Составные диаграммы поддерживают агрегации на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64K строк данных без утраты данных set.
конфигурации values: для этой визуализации комбинированной диаграммы следующие values были set:
- X column (набор данных column):
l_shipdate
- Y columns:
- Первый набор данных column:
l_extendedprice
- Тип агрегирования: среднее
- Второй набор данных column:
l_quantity
- Тип агрегирования: среднее
- Первый набор данных column:
- Имя оси X (переопределение значения по умолчанию):
Ship date
- Левое имя оси Y (переопределите значение по умолчанию):
Quantity
- Правое имя оси Y (переопределите значение по умолчанию):
Average price
- Серия:
- Order1 (набор данных column):
AVG(l_extendedprice)
- Ось Y: справа
- Тип: Строка
- Order2 (набор данных column):
AVG(l_quantity)
- Ось Y: слева
- Тип: линейчатая строка
- Order1 (набор данных column):
Параметры конфигурации: параметры конфигурации диаграммы со списком см. в разделе "Параметры конфигурации диаграммы".
SQL-запрос. Для этой визуализации комбинированной диаграммы использовался следующий SQL-запрос для generate данных set.
select * from samples.tpch.lineitem
Анализ когорты
Анализ когорты проверяет результаты предварительно определенных групп, называемых когортами, по мере их продвижения через set этапов. Визуализация когорты агрегирует только даты (она позволяет выполнять ежемесячные агрегаты). Он не выполняет какие-либо другие сводки данных в рамках результата set. Все остальные агрегаты выполняются в самом запросе.
конфигурации values: для этой визуализации когорты были setследующие values:
- Дата (контейнер) (база данных column):
cohort_month
- Этап (columnбазы данных):
months
- Размер популяции контейнера (база данных column):
size
- Значение этапа (база данных column):
active
- Интервал времени:
monthly
Параметры конфигурации: параметры конфигурации когорты см . в параметрах конфигации диаграммы когорты.
SQL-запрос: для этой визуализации когорты был использован следующий SQL-запрос для generate данных set.
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
Отображение счетчика
Счетчики отображают одно значение в видном виде, с параметром сравнения их с целевым значением. Чтобы использовать счетчики, укажите, какая строка данных будет отображаться в визуализации счетчика для значений Column и Target Column.
Примечание.
Счетчик поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
конфигурация values: для визуализации этого счетчика values были set:
- Значение column
- Набор данных column:
avg(o_totalprice)
- Строка 1:
- Набор данных column:
- Целевая column:
- Набор данных column:
avg(o_totalprice)
- Строка 2:
- Набор данных column:
- Формат целевого значения: Включение
SQL-запрос. Для этой визуализации счетчика использовался следующий SQL-запрос для generate данных set.
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
Визуализация воронки
Визуализация воронки помогает анализировать изменение метрик на разных этапах. Чтобы использовать воронку, укажите step
и value
column.
Примечание.
Воронка поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
Конфигурация values: для визуализации этой воронки были setследующие values:
- Шаг column (набор данных column):
o_orderstatus
- Значение column (набор данных column):
Revenue
SQL-запрос: для этой визуализации воронки использовался следующий SQL-запрос для generate данных set.
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
Визуализация карты Choropleth
В хороплетных визуализациях географические локалитеты, такие как страны или штаты, окрашиваются на основе агрегированных данных values каждого ключа column. Запрос должен возвращать географические объекты по имени.
Примечание.
Визуализации Choropleth не выполняют агрегирования данных в результате set. Все агрегаты должны вычисляться внутри самого запроса.
- Карта (набора данных column):
Countries
- Географические column (набор данных column):
Nation
- Географический тип: короткое имя
- Значение column (набор данных column):
revenue
- Режим кластеризации: эквивалентный
Параметры конфигурации: параметры конфигурации choropleth см . в разделе параметров конфигурации хороплета.
SQL-запрос: для этой визуализации хороплей использовался следующий SQL-запрос для generate данных set.
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
Визуализация карты маркеров
В визуализациях маркеров маркер устанавливается на координатах, обозначенных как set, на карте. Результат запроса должен возвращать пару "широта — долгота".
Примечание.
Маркер не выполняет агрегирование данных в результате set. Все агрегаты должны вычисляться внутри самого запроса.
Этот пример маркера создается из набора данных, который включает как широту, так и долготу values - которые недоступны в примерах наборов данных Databricks. Параметры конфигурации хороплей см. в разделе "Параметры конфигурации маркера".
визуализация Pivottable
pivot
table визуализация объединяет записи из результата запроса в новое табличное отображение. Это аналогично оператору PIVOT
или GROUP BY
в SQL. Вы настраиваете визуализацию pivottable с помощью полей для перетаскивания.
Примечание.
Pivot tables поддерживают агрегации серверной части, обеспечивая возможность выполнения запросов, возвращающих более 64 тыс. строк данных без усечения результата set. Однако Pivottable (устаревшая версия) поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
пример Pivottable
- строки Select (набор данных column):
l_retkurnflag
-
Select
columns (набор данных column):
l_shipmode
- Ячейка
-
columnнабора данных:
l_quantity
- Тип агрегирования: Сумма
-
columnнабора данных:
SQL-запрос: Для этой визуализации pivottable использовался следующий запрос на SQL для generate данных set.
select * from samples.tpch.lineitem
Sankey
Диаграмма Сэнки визуализирует поток из одного set в values к другому.
Примечание.
Визуализации Sankey не выполняют агрегирования данных в результате set. Все агрегаты должны вычисляться внутри самого запроса.
SQL-запрос: для этой визуализации Sankey использовался следующий SQL-запрос для generate данных set.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Последовательность Sunburst
Схема солнечных лучей помогает визуализировать иерархические данные с помощью концентрических кругов.
Примечание.
Последовательность Sunburst не выполняет агрегирование данных в пределах результата set. Все агрегаты должны вычисляться внутри самого запроса.
SQL-запрос. Для этой визуализации солнечных лучей используется следующий SQL-запрос для generate данных set.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Table
Визуализация table отображает данные в стандартной форме table, но с возможностью ручного переупорядочивания, скрытия и форматирования. См. параметры Table.
Примечание.
Table визуализации не выполняют агрегирования данных внутри результата set. Все агрегаты должны вычисляться внутри самого запроса.
Для параметров конфигурации table см. параметры конфигурации table.
Облако Word
Визуальное облако слова представляет частоту, которую слово происходит в данных.
Примечание.
Облако Word поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.
конфигурации values: для этой визуализаци values и облака словом setбыли set: тест
- Слова column (набор данных column):
o_comment
- Длина слов Limit: 5
- Частоты limit: 2
SQL-запрос: Для визуализации в виде облака слов был использован следующий SQL-запрос для generate данных set.
select * from samples.tpch.orders