Поделиться через


Типы визуализации

В этой статье описаны типы визуализаций, доступные для использования в записных книжках Azure Databricks и в Databricks SQL, и показано, как создать пример каждого типа визуализации.

Примечание.

Сведения о типах визуализаций, доступных для панелей мониторинга AI/BI, см. в разделе Типы визуализаций панели мониторинга.

Гистограмма

Линейчатые диаграммы представляют собой изменение метрик с течением времени или отображение пропорциональности, аналогичной круговой диаграмме.

Примечание.

Столбчатые диаграммы поддерживают агрегации на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без обрезки результата set.

Пример линейчатой диаграммы

Конфигурация values: для этой визуализации столбчатой диаграммы были использованы следующие valuesset:

  • X column:
    • Набор данных column: o_orderdate
    • Уровень даты: Months
  • Y columns:
    • Набор данных column: o_totalprice
    • Тип агрегирования: Sum
  • Группировать по (набор данных column): o_orderpriority
  • Укладка: Stack
  • Имя оси X (переопределение значения по умолчанию): Order month
  • Имя оси Y (переопределение значения по умолчанию): Total price

Параметры конфигурации: параметры конфигурации линейчатой диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для визуализации линейчатой диаграммы используется следующий SQL-запрос для generate данных set.

select * from samples.tpch.orders

График

Графики представляют собой изменение одной или нескольких метрик с течением времени.

Примечание.

Линейные графики поддерживают агрегации серверных, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результата set.

Пример графиков

конфигурация values: для этой визуализации линейного графика были setследующие values:

  • X column:
    • набор данных column: o_orderdate
    • Уровень даты: Years
  • Y columns:
    • Набор данных column: o_totalprice
    • Тип агрегирования: Average
  • Группировать по (набор данных column): o_orderpriority
  • Имя оси X (переопределение значения по умолчанию): Order year
  • Имя оси Y (переопределение значения по умолчанию): Average price

Параметры конфигурации: параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для визуализации линейного графика использовался следующий SQL-запрос для generate данных set.

select * from samples.tpch.orders

Диаграмма области

Диаграммы областей объединяют линейчатую и линейчатую диаграмму, чтобы показать, как числовые values одной или нескольких групп изменяются по сравнению со временем. Эти диаграммы часто используются, чтобы показать изменений воронки продаж с течением времени.

Примечание.

Диаграммы областей поддерживают агрегацию на стороне сервера, обеспечивая возможность выполнения запросов, возвращающих более 64 тыс. строк данных без сокращения результата set.

Пример диаграммы области

конфигурации values: для визуализации этой областной диаграммы values были set:

  • X column:
    • Набор данных column: o_orderdate
    • Уровень даты: Years
  • Y columns:
    • Набор данных column: o_totalprice
    • Тип агрегирования: Sum
  • Группировать по (набор данных column): o_orderpriority
  • Укладка: Stack
  • Имя оси X (переопределение значения по умолчанию): Order year
  • Имя оси Y (переопределение значения по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации диаграммы области см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для визуализации этой диаграммы областей использовался следующий SQL-запрос для generate данных set.

select * from samples.tpch.orders

Круговая диаграмма

Круговая диаграмма показывает пропорциональность между метриками. Эти диаграммы не предназначены для передачи данных временных рядов.

Примечание.

Круговые диаграммы поддерживают агрегации на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64 тыс. строк данных без сокращения результата set.

Пример круговой диаграммы

настройка values: для этой визуализации круговой диаграммы были следующие valuesset:

  • X column (набор данных column): o_orderpriority
  • Y columns:
    • Набор данных column: o_totalprice
    • Тип агрегирования: Sum
  • Метка (переопределите значение по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации круговой диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для этой визуализации круговой диаграммы использовался следующий SQL-запрос для generate данных set.

select * from samples.tpch.orders

Гистограммные диаграммы

Гистограмма отображает частоту появления определенного значения в наборе данных. Гистограмма помогает понять, имеет ли набор данных values, которые кластеризованы вокруг небольшого количества диапазонов или более распределены. Гистограмма отображается в виде линейчатой диаграммы, в которой вы управляете количеством разных полос (также называемых ячейками).

Примечание.

Гистограммные диаграммы поддерживают серверные агрегации, обеспечивая поддержку запросов, возвращающих более 64 тысяч строк данных без усечения результата set.

Пример гистограммы

values : для этой визуализации диаграммы-гистограммы были следующие valuesset:

  • X column (набор данных column): o_totalprice
  • Количество ячеек: 20
  • Имя оси X (переопределение значения по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации гистограммы см . в параметрах конфигурации гистограммы.

SQL-запрос: для визуализации гистограммы для generate данных setиспользовался следующий SQL-запрос.

select * from samples.tpch.orders

Диаграмма тепловой карты

Диаграммы тепловой карты смешивают функции линейчатых диаграмм, стеков и пузырьковых диаграмм, что позволяет визуализировать числовые данные с помощью цветов. Обычная цветовая палитра для тепловой карты показывает самые высокие values при помощи более теплых цветов, таких как оранжевый или красный, и самые низкие values – при помощи более холодных цветов, таких как синий или фиолетовый.

Например, рассмотрим следующую тепловую карту, которая визуализирует наиболее часто встречающиеся расстояния поездок на такси и группирует результаты по дню недели, расстоянию и общей сумме оплаты.

Примечание.

Тепловые карты поддерживают агрегации серверной части, поддерживая запросы, возвращающие более 64 тысяч строк данных без усечения результата set.

Пример тепловой карты

конфигурации values: для этой визуализации тепловой карты следующие values были set:

  • X column (набор данных column): o_orderpriority
  • Y columns (набор данных column): o_orderstatus
  • Цвет column:
    • Набор данных column: o_totalprice
    • Тип агрегирования: Average
  • Имя оси X (переопределение значения по умолчанию): Order priority
  • Имя оси Y (переопределение значения по умолчанию): Order status
  • Цветовая схема (переопределение значения по умолчанию): YIGnBu

Параметры конфигурации: параметры конфигурации тепловой карты см. в разделе "Параметры конфигурации диаграммы тепловой карты".

SQL-запрос. Для этой визуализации диаграммы тепловой карты использовался следующий SQL-запрос для generate данных set.

select * from samples.tpch.orders

Точечная диаграмма

Точечные визуализации обычно используются для отображения связи между двумя числовыми переменными. Кроме того, третье измерение может быть закодировано цветом, чтобы показать, как числовые переменные отличаются между группами.

Примечание.

Точечные диаграммы поддерживают агрегации на серверной стороне, обеспечивая поддержку запросов, возвращающих более 64 тыс. строк данных без усечения результата set.

Пример точечной диаграммы

конфигурация values: для этой визуализации точечной диаграммы следующие values были set:

  • X column (набор данных column): l_quantity
  • Y column (набор данных column): l_extendedprice
  • Группировать по (набор данных column): l_returnflag
  • Имя оси X (переопределение значения по умолчанию): Quantity
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации: параметры конфигурации точечной диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для этой визуализации точечной диаграммы использовался следующий SQL-запрос для generate данных set.

select * from samples.tpch.lineitem

Пузырьковая диаграмма

Пузырьковые диаграммы — это точечные диаграммы, where размер каждого маркера точек отражает соответствующую метрику.

Примечание.

Пузырьковые диаграммы поддерживают агрегацию на стороне сервера, обеспечивая обработку запросов, возвращающих более 64 тыс. строк данных без усечения результата set.

Пример пузырьков

конфигурация values: для данной визуализации пузырьковой диаграммы использованы следующие valuesset:

  • X (набор данных column): l_quantity
  • Y columns (набор данных column): l_extendedprice
  • Группировать по (набор данных column): l-returnflag
  • Размер пузырька column (набор данных column): l_tax
  • Коэффициент размера пузыря: 20
  • Имя оси X (переопределение значения по умолчанию): Quantity
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации: параметры конфигурации пузырьковой диаграммы см . в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для этой визуализации пузырьковой диаграммы использовался следующий SQL-запрос для generate данных set.

select * from samples.tpch.lineitem

Прямоугольная диаграмма

Визуализация прямоугольной диаграммы показывает сводку распределения числовых данных, при необходимости сгруппированную по категориям. С помощью визуализации коробчатой диаграммы можно быстро сравнить диапазоны значений между категориями и визуализировать местоположение, разброс и асимметрию групп values через их квартиль. В каждом поле темная линия показывает межквартильный диапазон. Дополнительные сведения о интерпретации визуализаций графиков прямоугольник см. в статье "Диаграмма", размещенной в Википедии.

Примечание.

Прямоугольные диаграммы поддерживают только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример диаграммы

конфигурация values: для этой визуализации диаграммы values были set:

  • X column (набор данных column): l-returnflag
  • Y columns (набор данных column): l_extendedprice
  • Группировать по (набор данных column): l_shipmode
  • Имя оси X (переопределение значения по умолчанию): Return flag1
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации. Параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос: для визуализации диаграммы ниже используется следующий SQL-запрос для generate данных set.

select * from samples.tpch.lineitem

Диаграмма со списком

Комбо-диаграммы объединяют линии и линейчатые диаграммы, чтобы представить изменения с течением времени с пропорциональностью.

Примечание.

Составные диаграммы поддерживают агрегации на стороне сервера, обеспечивая поддержку запросов, возвращающих более 64K строк данных без утраты данных set.

Пример со списком

конфигурации values: для этой визуализации комбинированной диаграммы следующие values были set:

  • X column (набор данных column): l_shipdate
  • Y columns:
    • Первый набор данных column: l_extendedprice
    • Тип агрегирования: среднее
    • Второй набор данных column: l_quantity
    • Тип агрегирования: среднее
  • Имя оси X (переопределение значения по умолчанию): Ship date
  • Левое имя оси Y (переопределите значение по умолчанию): Quantity
  • Правое имя оси Y (переопределите значение по умолчанию): Average price
  • Серия:
    • Order1 (набор данных column): AVG(l_extendedprice)
    • Ось Y: справа
    • Тип: Строка
    • Order2 (набор данных column): AVG(l_quantity)
    • Ось Y: слева
    • Тип: линейчатая строка

Параметры конфигурации: параметры конфигурации диаграммы со списком см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для этой визуализации комбинированной диаграммы использовался следующий SQL-запрос для generate данных set.

select * from samples.tpch.lineitem

Анализ когорты

Анализ когорты проверяет результаты предварительно определенных групп, называемых когортами, по мере их продвижения через set этапов. Визуализация когорты агрегирует только даты (она позволяет выполнять ежемесячные агрегаты). Он не выполняет какие-либо другие сводки данных в рамках результата set. Все остальные агрегаты выполняются в самом запросе.

Пример когорты

конфигурации values: для этой визуализации когорты были setследующие values:

  • Дата (контейнер) (база данных column): cohort_month
  • Этап (columnбазы данных): months
  • Размер популяции контейнера (база данных column): size
  • Значение этапа (база данных column): active
  • Интервал времени: monthly

Параметры конфигурации: параметры конфигурации когорты см . в параметрах конфигации диаграммы когорты.

SQL-запрос: для этой визуализации когорты был использован следующий SQL-запрос для generate данных set.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Отображение счетчика

Счетчики отображают одно значение в видном виде, с параметром сравнения их с целевым значением. Чтобы использовать счетчики, укажите, какая строка данных будет отображаться в визуализации счетчика для значений Column и Target Column.

Примечание.

Счетчик поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример счетчика

конфигурация values: для визуализации этого счетчика values были set:

  • Значение column
    • Набор данных column: avg(o_totalprice)
    • Строка 1:
  • Целевая column:
    • Набор данных column: avg(o_totalprice)
    • Строка 2:
  • Формат целевого значения: Включение

SQL-запрос. Для этой визуализации счетчика использовался следующий SQL-запрос для generate данных set.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Визуализация воронки

Визуализация воронки помогает анализировать изменение метрик на разных этапах. Чтобы использовать воронку, укажите step и valuecolumn.

Примечание.

Воронка поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример воронки

Конфигурация values: для визуализации этой воронки были setследующие values:

  • Шаг column (набор данных column): o_orderstatus
  • Значение column (набор данных column): Revenue

SQL-запрос: для этой визуализации воронки использовался следующий SQL-запрос для generate данных set.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Визуализация карты Choropleth

В хороплетных визуализациях географические локалитеты, такие как страны или штаты, окрашиваются на основе агрегированных данных values каждого ключа column. Запрос должен возвращать географические объекты по имени.

Примечание.

Визуализации Choropleth не выполняют агрегирования данных в результате set. Все агрегаты должны вычисляться внутри самого запроса.

Пример map choropleth

конфигурации : для этой визуализации хороплейт были следующие :

  • Карта (набора данных column): Countries
  • Географические column (набор данных column): Nation
  • Географический тип: короткое имя
  • Значение column (набор данных column): revenue
  • Режим кластеризации: эквивалентный

Параметры конфигурации: параметры конфигурации choropleth см . в разделе параметров конфигурации хороплета.

SQL-запрос: для этой визуализации хороплей использовался следующий SQL-запрос для generate данных set.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Визуализация карты маркеров

В визуализациях маркеров маркер устанавливается на координатах, обозначенных как set, на карте. Результат запроса должен возвращать пару "широта — долгота".

Примечание.

Маркер не выполняет агрегирование данных в результате set. Все агрегаты должны вычисляться внутри самого запроса.

Пример маркера карты

Этот пример маркера создается из набора данных, который включает как широту, так и долготу values - которые недоступны в примерах наборов данных Databricks. Параметры конфигурации хороплей см. в разделе "Параметры конфигурации маркера".

визуализация Pivottable

pivot table визуализация объединяет записи из результата запроса в новое табличное отображение. Это аналогично оператору PIVOT или GROUP BY в SQL. Вы настраиваете визуализацию pivottable с помощью полей для перетаскивания.

Примечание.

Pivot tables поддерживают агрегации серверной части, обеспечивая возможность выполнения запросов, возвращающих более 64 тыс. строк данных без усечения результата set. Однако Pivottable (устаревшая версия) поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

пример Pivottable

конфигурации : для этой визуализации были следующие :

  • строки Select (набор данных column): l_retkurnflag
  • Select columns (набор данных column): l_shipmode
  • Ячейка
    • columnнабора данных: l_quantity
    • Тип агрегирования: Сумма

SQL-запрос: Для этой визуализации pivottable использовался следующий запрос на SQL для generate данных set.

select * from samples.tpch.lineitem

Sankey

Диаграмма Сэнки визуализирует поток из одного set в values к другому.

Примечание.

Визуализации Sankey не выполняют агрегирования данных в результате set. Все агрегаты должны вычисляться внутри самого запроса.

Пример Sankey

SQL-запрос: для этой визуализации Sankey использовался следующий SQL-запрос для generate данных set.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Последовательность Sunburst

Схема солнечных лучей помогает визуализировать иерархические данные с помощью концентрических кругов.

Примечание.

Последовательность Sunburst не выполняет агрегирование данных в пределах результата set. Все агрегаты должны вычисляться внутри самого запроса.

Пример Sunburst

SQL-запрос. Для этой визуализации солнечных лучей используется следующий SQL-запрос для generate данных set.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Table

Визуализация table отображает данные в стандартной форме table, но с возможностью ручного переупорядочивания, скрытия и форматирования. См. параметры Table.

Примечание.

Table визуализации не выполняют агрегирования данных внутри результата set. Все агрегаты должны вычисляться внутри самого запроса.

Для параметров конфигурации table см. параметры конфигурации table.

Облако Word

Визуальное облако слова представляет частоту, которую слово происходит в данных.

Примечание.

Облако Word поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример облака Word

конфигурации values: для этой визуализаци values и облака словом setбыли set: тест

  • Слова column (набор данных column): o_comment
  • Длина слов Limit: 5
  • Частоты limit: 2

SQL-запрос: Для визуализации в виде облака слов был использован следующий SQL-запрос для generate данных set.

select * from samples.tpch.orders