Types de visualisation
Cet article décrit les types de visualisations que vous pouvez utiliser dans les notebooks Azure Databricks et dans Databricks SQL, et vous montre comment créer un exemple de chaque type de visualisation.
Remarque
Pour en savoir plus sur les types de visualisation disponibles pour les tableaux de bord IA/BI, consultez les types de visualisation de tableau de bord.
Graphique à barres
Les graphiques à barres représentent le changement des métriques dans le temps ou indiquent la proportionnalité, comme un graphique à secteurs.
Remarque
Les graphiques à barres prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation de graphique à barres, les valeurs suivantes ont été définies :
- Colonne X :
- Colonne de jeu de données :
o_orderdate
- Niveau de date :
Months
- Colonne de jeu de données :
- Colonnes Y :
- Colonne de jeu de données :
o_totalprice
- Type d’agrégation :
Sum
- Colonne de jeu de données :
- Regrouper par (colonne de jeu de données) :
o_orderpriority
- Empilement :
Stack
- Nom de l’axe X (remplacer la valeur par défaut) :
Order month
- Nom de l’axe Y (remplacer la valeur par défaut) :
Total price
Options de configuration : pour les options de configuration de graphique à barres, consultez les options de configuration de graphique.
Requête SQL : pour cette visualisation de graphique à barres, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.orders
Graphique en courbes
Les graphiques en courbes présentent le changement d’une ou de plusieurs métriques dans le temps.
Remarque
Les graphiques en courbes prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation de graphique en courbes, les valeurs suivantes ont été définies :
- Colonne X :
- Colonne de jeu de données :
o_orderdate
- Niveau de date :
Years
- Colonne de jeu de données :
- Colonnes Y :
- Colonne de jeu de données :
o_totalprice
- Type d’agrégation :
Average
- Colonne de jeu de données :
- Regrouper par (colonne de jeu de données) :
o_orderpriority
- Nom de l’axe X (remplacer la valeur par défaut) :
Order year
- Nom de l’axe Y (remplacer la valeur par défaut) :
Average price
Options de configuration : pour les options de configuration de graphique en courbes, consultez les options de configuration de graphique.
Requête SQL : pour cette visualisation de graphique en courbes, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.orders
Graphique en aires
Les graphiques en aires combinent les graphiques en courbes et à barres pour montrer comment une ou plusieurs valeurs numériques de groupes changent pendant la progression d’une deuxième variable, en général celle du temps. Ils sont souvent utilisés pour afficher les modifications de l’entonnoir de ventes dans le temps.
Remarque
Les graphiques en aires prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation de graphique en aires, les valeurs suivantes ont été définies :
- Colonne X :
- Colonne de jeu de données :
o_orderdate
- Niveau de date :
Years
- Colonne de jeu de données :
- Colonnes Y :
- Colonne de jeu de données :
o_totalprice
- Type d’agrégation :
Sum
- Colonne de jeu de données :
- Regrouper par (colonne de jeu de données) :
o_orderpriority
- Empilement :
Stack
- Nom de l’axe X (remplacer la valeur par défaut) :
Order year
- Nom de l’axe Y (remplacer la valeur par défaut) :
Total price
Options de configuration : pour les options de configuration de graphique en aires, consultez les options de configuration de graphique.
Requête SQL : pour cette visualisation de graphique en aires, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.orders
Graphiques à secteurs
Les graphique à secteurs affichent la proportionnalité entre les métriques. Ils ne sont pas destinés à transmettre des données de série chronologique.
Remarque
Les graphiques à secteurs prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation de graphique à secteurs, les valeurs suivantes ont été définies :
- Colonne X (colonne de jeu de données) :
o_orderpriority
- Colonnes Y :
- Colonne de jeu de données :
o_totalprice
- Type d’agrégation :
Sum
- Colonne de jeu de données :
- Étiquette (remplacer la valeur par défaut) :
Total price
Options de configuration : pour les options de configuration de graphique à secteurs, consultez les options de configuration de graphique.
Requête SQL : pour cette visualisation de graphique à secteurs, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.orders
Histogrammes
Un histogramme représente la fréquence à laquelle une valeur donnée apparaît dans un jeu de données. Un histogramme vous permet de comprendre si un jeu de données a des valeurs qui sont regroupées sur un petit nombre de plages ou qui sont davantage réparties. Un histogramme est affiché sous la forme d’un graphique à barres dans lequel vous contrôlez le nombre de barres distinctes (également appelées « compartiments »).
Remarque
Les histogrammes prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation d’histogramme, les valeurs suivantes ont été définies :
- Colonne X (colonne de jeu de données) :
o_totalprice
- Nombre de compartiments : 20
- Nom de l’axe X (remplacer la valeur par défaut) :
Total price
Options de configuration : pour les options de configuration d’histogramme, consultez les options de configuration d’histogramme.
Requête SQL : pour cette visualisation d’histogramme, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.orders
Graphiques de carte thermique
Les graphiques de carte thermique combinent des fonctionnalités de graphiques à barres, d’empilement et de graphiques en bulles, ce qui vous permet de visualiser les données numériques avec des couleurs. Une palette de couleurs courante pour un carte thermique affiche les valeurs les plus élevées en utilisant des couleurs plus chaudes, telles que l’orange ou le rouge, et les valeurs les plus basses en utilisant des couleurs plus froides, telles que le bleu ou le violet.
Par exemple, considérez la carte thermique suivante qui visualise les distances les plus fréquentes de trajets de taxis quotidiens, et regroupe les résultats par jour de la semaine, distance et prix total.
Remarque
Les graphiques de carte thermique prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation de graphique de carte thermique, les valeurs suivantes ont été définies :
- Colonne X (colonne de jeu de données) :
o_orderpriority
- Colonnes Y (colonne de jeu de données) :
o_orderstatus
- Colonne de couleur :
- Colonne de jeu de données :
o_totalprice
- Type d’agrégation :
Average
- Colonne de jeu de données :
- Nom de l’axe X (remplacer la valeur par défaut) :
Order priority
- Nom de l’axe Y (remplacer la valeur par défaut) :
Order status
- Schéma de couleur (remplacer la valeur par défaut) :
YIGnBu
Options de configuration : pour les options de configuration de graphique de carte thermique, consultez les options de configuration de graphique de carte thermique.
Requête SQL : pour cette visualisation de graphique de carte thermique, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.orders
Graphique en nuage de points
Les visualisations en nuage de points sont couramment utilisées pour montrer la relation entre deux variables numériques. Par ailleurs, une troisième dimension peut être encodée avec des couleurs pour montrer comment les variables numériques diffèrent entre les groupes.
Remarque
Les graphiques en nuage de points prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation de graphique en nuage de points, les valeurs suivantes ont été définies :
- Colonne X (colonne de jeu de données) :
l_quantity
- Colonne Y (colonne de jeu de données) :
l_extendedprice
- Regrouper par (colonne de jeu de données) :
l_returnflag
- Nom de l’axe X (remplacer la valeur par défaut) :
Quantity
- Nom de l’axe Y (remplacer la valeur par défaut) :
Extended price
Options de configuration : pour les options de configuration de graphique en nuage de points, consultez les options de configuration de graphique.
Requête SQL : pour cette visualisation de graphique en nuage de points, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.lineitem
Graphique à bulles
Les graphiques à bulles sont des graphiques en nuage de points où la taille de chaque marqueur de point reflète une métrique pertinente.
Remarque
Les graphiques à bulles prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation de graphique à bulles, les valeurs suivantes ont été définies :
- X (colonne de jeu de données) :
l_quantity
- Colonnes Y (colonne de jeu de données) :
l_extendedprice
- Regrouper par (colonne de jeu de données) :
l-returnflag
- Colonne de taille de la bulle (colonne de jeu de données) :
l_tax
- Coefficient de taille de la bulle : 20
- Nom de l’axe X (remplacer la valeur par défaut) :
Quantity
- Nom de l’axe Y (remplacer la valeur par défaut) :
Extended price
Options de configuration : pour les options de configuration de graphique à bulles, consultez les options de configuration de graphique.
Requête SQL : pour cette visualisation de graphique à bulles, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.lineitem
Diagramme en boîte
La visualisation de diagramme en boîte montre la synthèse de la distribution de données numériques, éventuellement regroupées par catégorie. Avec une visualisation de diagramme en boîte, vous pouvez rapidement comparer les plages de valeurs de différentes catégories, et visualiser les groupes de localité, de répartition et d’asymétrie des valeurs à travers leurs quartiles. Dans chaque boîte, la ligne plus foncée indique l’écart interquartile. Pour plus d’informations sur l’interprétation des visualisations de diagramme en boîte, consultez l’article Boîte à moustaches sur Wikipédia.
Remarque
Les graphiques en boîte prennent uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.
Valeurs de configuration : pour cette visualisation de graphique en boîte, les valeurs suivantes ont été définies :
- Colonne X (colonne de jeu de données) :
l-returnflag
- Colonnes Y (colonne de jeu de données) :
l_extendedprice
- Regrouper par (colonne de jeu de données) :
l_shipmode
- Nom de l’axe X (remplacer la valeur par défaut) :
Return flag1
- Nom de l’axe Y (remplacer la valeur par défaut) :
Extended price
Options de configuration : pour les options de configuration de graphique en boîte, consultez les options de configuration de graphique en boîte.
Requête SQL : pour cette visualisation de graphique en boîte, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.lineitem
Graphique combiné
Les graphiques combinés associent les graphiques en courbes et à barres pour présenter les changements au fil du temps avec une proportionnalité.
Remarque
Les graphiques combinés prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.
Valeurs de configuration : pour cette visualisation de graphique combiné, les valeurs suivantes ont été définies :
- Colonne X (colonne de jeu de données) :
l_shipdate
- Colonnes Y :
- Première colonne du jeu de données :
l_extendedprice
- Type d’agrégation : moyenne
- Deuxième colonne du jeu de données :
l_quantity
- Type d’agrégation : moyenne
- Première colonne du jeu de données :
- Nom de l’axe X (remplacer la valeur par défaut) :
Ship date
- Nom de l’axe Y de gauche (remplacer la valeur par défaut) :
Quantity
- Nom de l’axe Y de droite (remplacer la valeur par défaut) :
Average price
- Série :
- Order1 (colonne de jeu de données) :
AVG(l_extendedprice)
- Axe Y : à droite
- Type : en courbes
- Order2 (colonne de jeu de données) :
AVG(l_quantity)
- Axe Y : à gauche
- Type : à barres
- Order1 (colonne de jeu de données) :
Options de configuration : pour les options de configuration de graphique combiné, consultez les options de configuration de graphique.
Requête SQL : pour cette visualisation de graphique combiné, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.lineitem
Analyse de cohorte
Une analyse de cohorte examine les résultats de groupes prédéterminés, appelés cohortes, lorsqu’ils suivent un ensemble d’étapes. La visualisation de cohorte agrège les données uniquement par dates (elle permet de faire des agrégations mensuelles). Elle n’effectue pas d’autre agrégation de données dans le jeu de résultats. Toutes les autres agrégations sont effectuées dans la requête elle-même.
Valeurs de configuration : pour cette visualisation de cohorte, les valeurs suivantes ont été définies :
- Date (compartiment) (colonne de base de données) :
cohort_month
- Phase (colonne de base de données) :
months
- Taille de population du compartiment (colonne de base de données) :
size
- Valeur de la phase (colonne de base de données) :
active
- Intervalle de temps :
monthly
Options de configuration : pour les options de configuration de cohorte, consultez les options de configuration de graphique de cohorte.
Requête SQL : pour cette visualisation de cohorte, la requête SQL suivante a été utilisée pour générer le jeu de données.
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
Affichage de compteur
Les compteurs montrent une seule valeur de manière proéminente, avec une option pour la comparer à une valeur cible. Pour utiliser des compteurs, spécifiez la ligne de données à montrer sur la visualisation de compteur pour la Colonne de valeur et la Colonne cible.
Remarque
Les compteurs prennent uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.
Valeurs de configuration : pour cette visualisation de compteur, les valeurs suivantes ont été définies :
- Colonne de valeur
- Colonne de jeu de données :
avg(o_totalprice)
- Ligne 1 :
- Colonne de jeu de données :
- Colonne cible :
- Colonne de jeu de données :
avg(o_totalprice)
- Ligne 2 :
- Colonne de jeu de données :
- Mettre en forme la cible : Activer
Requête SQL : pour cette visualisation de compteur, la requête SQL suivante a été utilisée pour générer le jeu de données.
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
Visualisation d’entonnoir
La visualisation d’entonnoir permet d’analyser le changement d’une métrique à différentes étapes. Pour utiliser l’entonnoir, spécifiez un step
et une colonne value
.
Remarque
Les entonnoirs prennent uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.
Valeurs de configuration : pour cette visualisation d’entonnoir, les valeurs suivantes ont été définies :
- Colonne d’étape (colonne de jeu de données) :
o_orderstatus
- Colonne de valeur (colonne de jeu de données) :
Revenue
Requête SQL : pour cette visualisation d’entonnoir, la requête SQL suivante a été utilisée pour générer le jeu de données.
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
Visualisation de carte choroplèthe
Dans les visualisations de carte choroplèthe, les emplacements géographiques, comme les pays ou les États, sont colorés en fonction des valeurs agrégées de chaque colonne clé. La requête doit retourner des emplacements géographiques par nom.
Remarque
Les visualisations de carte choroplèthe ne font aucune agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.
Valeurs de configuration : pour cette visualisation de carte choroplèthe, les valeurs suivantes ont été définies :
- Carte (colonne de jeu de données) :
Countries
- Colonne géographique (colonne de jeu de données) :
Nation
- Type géographique : nom court
- Colonne de valeur (colonne de jeu de données) :
revenue
- Mode de clustering : équidistant
Options de configuration : pour les options de configuration de carte choroplèthe, consultez les options de configuration de carte choroplèthe.
Requête SQL : pour cette visualisation de carte choroplèthe, la requête SQL suivante a été utilisée pour générer le jeu de données.
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
Visualisation de carte à marqueurs
Dans les visualisation de carte à marqueurs, un marqueur est placé au niveau d’un ensemble de coordonnées sur la carte. Les résultats de la requête doivent retourner des paires latitude-longitude.
Remarque
Le marqueur n’effectue pas d’agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.
Cet exemple de marqueur est généré à partir d’un jeu de données qui comprend à la fois des valeurs de latitude et de longitude, lesquelles ne sont pas disponibles dans les exemples de jeux de données Databricks. Pour connaître les options de configuration de carte à marqueurs, consultez les options de configuration de marqueur.
Visualisation de tableau croisé dynamique
La visualisation de tableau croisé dynamique agrège les enregistrements d’un résultat de requête dans un nouvel affichage tabulaire. Elle est similaire aux instructions PIVOT
ou GROUP BY
en SQL. Vous configurez la visualisation du tableau croisé dynamique avec des champs de type glisser-déplacer.
Remarque
Les tableaux croisés dynamiques prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats. Toutefois, le tableau croisé dynamique (hérité) prend uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.
Exemple de tableau croisé dynamique
Valeurs de configuration : pour cette visualisation de tableau croisé dynamique, les valeurs suivantes ont été définies :
- Sélectionner des lignes (colonne de jeu de données) :
l_retkurnflag
- Sélectionner des colonnes (colonne de jeu de données) :
l_shipmode
- Cellule
- Colonne de jeu de données :
l_quantity
- Type d’agrégation : Sum
- Colonne de jeu de données :
Requête SQL : pour cette visualisation de tableau croisé dynamique, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.lineitem
Sankey
Un diagramme Sankey visualise le flux d’un ensemble de valeurs par rapport à un autre.
Remarque
Les visualisations Sankey ne font aucune agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.
Requête SQL : pour cette visualisation Sankey, la requête SQL suivante a été utilisée pour générer le jeu de données.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Séquence Sunburst
Un diagramme Sunburst permet de visualiser des données hiérarchiques en utilisant des cercles concentriques.
Remarque
La séquence Sunburst n’effectue pas d’agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.
Requête SQL : pour cette visualisation Sunburst, la requête SQL suivante a été utilisée pour générer le jeu de données.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Table
La visualisation de table affiche les données dans une table standard, mais avec la possibilité de manuellement réorganiser, masquer et mettre en forme les données. Consultez les options de table.
Remarque
Les visualisations de table ne font aucune agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.
Pour connaître les options de configuration de table, consultez les options de configuration de table.
Cloud de mots
Un nuage de mots représente visuellement la fréquence d’occurrence d’un mot dans les données.
Remarque
Les nuages de mots prennent uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.
Valeurs de configuration : pour cette visualisation en nuage de mots, les valeurs suivantes ont été définies : test
- Colonne de mots (colonne de jeu de données) :
o_comment
- Limite de longueur des mots : 5
- Limite des fréquences : 2
Requête SQL : pour cette visualisation en nuage de mots, la requête SQL suivante a été utilisée pour générer le jeu de données.
select * from samples.tpch.orders