Informations de référence sur la table système de l’historique des requêtes

Article
02/03/2025

Important

Cette table système est en préversion publique. Pour accéder à la table, le schéma doit être activé dans votre catalogue system. Pour plus d’informations, consultez Activer les schémas de table système.

Cet article contient des informations sur la table système de l’historique des requêtes, y compris un plan du schéma de la table.

Important

Pour accéder à la table système de l’historique des requêtes, vous devez activer le schéma query. Pour obtenir des instructions sur l’activation des schémas système, consultez Activer les schémas de la table système.

Chemin d’accès de la table : cette table système se trouve à l’emplacement system.query.history.

Utilisation de la table de l’historique des requêtes

La table d’historique des requêtes inclut les enregistrements des requêtes exécutées à l’aide d’entrepôts SQL ou de calcul serverless pour notebooks et tâches. La table inclut des enregistrements à l’échelle du compte de tous les espaces de travail de la même région à partir de laquelle vous accédez à la table.

Par défaut, seuls les administrateurs ont accès à la table système. Si vous souhaitez partager les données de la table avec un utilisateur ou un groupe, Databricks recommande de créer une vue dynamique pour chaque utilisateur ou groupe. Consultez Créer une vue dynamique.

Schéma de la table système de l’historique des requêtes

La table d’historique des requêtes utilise le schéma suivant :

Nom de la colonne	Type de données	Description	Exemple :
`account_id`	string	ID du compte.	`11e22ba4-87b9-4cc2` `-9770-d10b894b7118`
`workspace_id`	string	ID de l’espace de travail où la requête a été exécutée.	`1234567890123456`
`statement_id`	string	ID qui identifie de façon unique l’exécution de l’instruction. Vous pouvez utiliser cet ID pour rechercher l’exécution de l’instruction dans l’interface utilisateur de l’historique des requêtes.	`7a99b43c-b46c-432b` `-b0a7-814217701909`
`session_id`	string	ID de session Spark.	`01234567-cr06-a2mp` `-t0nd-a14ecfb5a9c2`
`execution_status`	string	État d’arrêt de l’instruction. Les valeurs possibles sont les suivantes : - `FINISHED` : l’exécution s’est terminée avec succès - `FAILED` : échec de l’exécution avec le motif de l’échec décrit dans le message d’erreur associé - `CANCELED` : l’exécution a été annulée	`FINISHED`
`compute`	struct	Struct qui représente le type de ressource de calcul utilisé pour exécuter l’instruction et l’ID de la ressource, le cas échéant. La valeur `type` est `WAREHOUSE` ou `SERVERLESS_COMPUTE`.	`{` `type: WAREHOUSE,` `cluster_id: NULL,` `warehouse_id: ec58ee3772e8d305` `}`
`executed_by_user_id`	string	ID de l’utilisateur qui a exécuté l’instruction.	`2967555311742259`
`executed_by`	string	Adresse e-mail ou nom d’utilisateur de l’utilisateur qui a exécuté l’instruction.	`example@databricks.com`
`statement_text`	string	Texte de l’instruction SQL. Si vous avez configuré des clés gérées par le client, `statement_text` est vide. En raison des limitations de stockage, les valeurs de texte d’instruction plus longues sont compressées. Même avec la compression, vous pouvez atteindre une limite de caractères.	`SELECT 1`
`statement_type`	string	Type d’instruction. Par exemple : `ALTER`, `COPY` et `INSERT`.	`SELECT`
`error_message`	string	Message décrivant la condition de l’erreur. Si vous avez configuré des clés gérées par le client, `error_message` est vide.	`[INSUFFICIENT_PERMISSIONS]` `Insufficient privileges:` `User does not have` `permission SELECT on table` `'default.nyctaxi_trips'.`
`client_application`	string	Application cliente qui a exécuté l’instruction. Par exemple : Éditeur SQL Databricks, Tableau et Power BI. Ce champ est dérivé des informations fournies par les applications clientes. Bien que les valeurs restent statiques au fil du temps, cela ne peut pas être garanti.	`Databricks SQL Editor`
`client_driver`	string	Connecteur utilisé pour se connecter à Azure Databricks pour exécuter l’instruction. Par exemple : Pilote SQL Databricks pour Go, Pilote ODBC Databricks, Pilote JDBC Databricks.	`Databricks JDBC Driver`
`total_duration_ms`	bigint	Durée totale d’exécution de l’instruction en millisecondes (durée d’extraction des résultats non comprise).	`1`
`waiting_for_compute_duration_ms`	bigint	Temps passé à attendre que les ressources de calcul soient approvisionnées en millisecondes.	`1`
`waiting_at_capacity_duration_ms`	bigint	Temps passé à attendre dans la file d’attente une capacité de calcul disponible en millisecondes.	`1`
`execution_duration_ms`	bigint	Temps passé à exécuter l’instruction en millisecondes.	`1`
`compilation_duration_ms`	bigint	Temps passé à charger les métadonnées et à optimiser la requête en millisecondes.	`1`
`total_task_duration_ms`	bigint	Somme de toutes les durées des tâches en millisecondes. Cette durée représente le temps combiné qu’il a fallu pour exécuter la requête sur tous les cœurs de tous les nœuds. Elle peut être beaucoup plus longue que la durée horloge si plusieurs tâches sont exécutées en parallèle. Elle peut être plus courte que la durée horloge si les tâches attendent des nœuds disponibles.	`1`
`result_fetch_duration_ms`	bigint	Temps passé, en millisecondes, à extraire les résultats de l’instruction une fois l’exécution terminée.	`1`
`start_time`	timestamp	Heure à laquelle Databricks a reçu la demande. Les informations sur le fuseau horaire sont enregistrées à la fin de la valeur, où `+00:00` représente le fuseau horaire UTC.	`2022-12-05T00:00:00.000+0000`
`end_time`	timestamp	Heure de fin de l’exécution de l’instruction, durée d’extraction des résultats non comprise. Les informations sur le fuseau horaire sont enregistrées à la fin de la valeur, où `+00:00` représente le fuseau horaire UTC.	`2022-12-05T00:00:00.000+00:00`
`update_time`	timestamp	Heure à laquelle l’instruction a reçu une mise à jour de progression pour la dernière fois. Les informations sur le fuseau horaire sont enregistrées à la fin de la valeur, où `+00:00` représente le fuseau horaire UTC.	`2022-12-05T00:00:00.000+00:00`
`read_partitions`	bigint	Nombre de partitions lues après le nettoyage.	`1`
`pruned_files`	bigint	Nombre de fichiers nettoyés.	`1`
`read_files`	bigint	Nombre de fichiers lus après le nettoyage.	`1`
`read_rows`	bigint	Nombre total de lignes lues par l’instruction.	`1`
`produced_rows`	bigint	Nombre total de lignes retournées par l’instruction.	`1`
`read_bytes`	bigint	Taille totale des données lues par l’instruction en octets.	`1`
`read_io_cache_percent`	int	Pourcentage d’octets des données persistantes lues à partir du cache d’E/S.	`50`
`from_result_cache`	booléen	`TRUE` indique que le résultat de l’instruction a été extrait du cache.	`TRUE`
`spilled_local_bytes`	bigint	Taille en octets des données provisoirement écrites sur le disque lors de l’exécution de l’instruction.	`1`
`written_bytes`	bigint	Taille en octets des données persistantes écrites dans le stockage d’objets cloud.	`1`
`shuffle_read_bytes`	bigint	Quantité totale en octets des données envoyées sur le réseau.	`1`
`query_source`	struct	Un struct qui contient des paires clé-valeur représentant une ou plusieurs entités Databricks impliquées dans l’exécution de cette instruction, comme des travaux, des notebooks ou des tableaux de bord. Ce champ enregistre uniquement des entités Databricks.	`{` `job_info: {` `job_id: 64361233243479` `job_run_id: 887406461287882` `job_task_key: “job_task_1”` `job_task_run_id: 110378410199121` `}`
`executed_as`	string	Nom de l’utilisateur ou principal de service dont le privilège a été utilisé pour exécuter l’instruction.	`example@databricks.com`
`executed_as_user_id`	string	ID de l’utilisateur ou principal de service dont le privilège a été utilisé pour exécuter l’instruction.	`2967555311742259`

Afficher le profil de requête pour un enregistrement

Pour accéder au profil d’une requête en fonction d’un enregistrement dans la table de l’historique des requêtes, procédez comme suit :

Identifiez l’enregistrement concerné, puis copiez le statement_id de l’enregistrement.
Référencez le workspace_id de l’enregistrement pour vous assurer que vous êtes connecté au même espace de travail que l’enregistrement.
Cliquez sur Historique des requêtes dans la barre latérale de l’espace de travail.
Dans le champ ID d’instruction, collez le statement_id sur l’enregistrement.
Cliquez sur le nom d’une requête. Une vue d’ensemble des mesures de requête s’affiche.
Cliquez sur Afficher le profil de requête.

Matérialiser l’historique des requêtes à partir de votre metastore

Le code suivant peut être utilisé pour créer un travail s’exécutant toutes les heures, tous les jours ou chaque semaine pour matérialiser l’historique des requêtes à partir d’un metastore. Ajustez les variables HISTORY_TABLE_PATH et LOOKUP_PERIOD_DAYS en conséquence.

from delta.tables import *
from pyspark.sql.functions import *
from pyspark.sql.types import *

HISTORY_TABLE_PATH = "jacek.default.history"
# Adjust the lookup period according to your job schedule
LOOKUP_PERIOD_DAYS = 1

def table_exists(table_name):
    try:
        spark.sql(f"describe table {table_name}")
        return True
    except Exception:
        return False

def save_as_table(table_path, df, schema, pk_columns):
    deltaTable = (
        DeltaTable.createIfNotExists(spark)
        .tableName(table_path)
        .addColumns(schema)
        .execute()
    )

    merge_statement = " AND ".join([f"logs.{col}=newLogs.{col}" for col in pk_columns])

    result = (
        deltaTable.alias("logs")
        .merge(
            df.alias("newLogs"),
            f"{merge_statement}",
        )
        .whenNotMatchedInsertAll()
        .whenMatchedUpdateAll()
        .execute()
    )
    result.show()

def main():
    df = spark.read.table("system.query.history")
    if table_exists(HISTORY_TABLE_PATH):
        df = df.filter(f"update_time >= CURRENT_DATE() - INTERVAL {LOOKUP_PERIOD_DAYS} days")
    else:
        print(f"Table {HISTORY_TABLE_PATH} does not exist. Proceeding to copy the whole source table.")

    save_as_table(
        HISTORY_TABLE_PATH,
        df,
        df.schema,
        ["workspace_id", "statement_id"]
    )

main()

Partager via

Informations de référence sur la table système de l’historique des requêtes

Utilisation de la table de l’historique des requêtes

Schéma de la table système de l’historique des requêtes

Afficher le profil de requête pour un enregistrement

Matérialiser l’historique des requêtes à partir de votre metastore

Commentaires

Ressources supplémentaires