Tâche de profilage des données
La tâche de profilage des données calcule différents profils qui vous aident à vous familiariser avec une source de données et à identifier les problèmes à résoudre au niveau des données.
Vous pouvez utiliser la tâche de profilage des données à l'intérieur d'un package Integration Services pour profiler les données stockées dans SQL Server et pour identifier les problèmes potentiels de qualité des données.
Notes
Cette rubrique décrit uniquement le les fonctionnalités et les spécifications de la tâche de profilage des données. Pour connaître la procédure pas à pas d'utilisation de la tâche de profilage des données, consultez la section, Profilage des données avec la tâche de profilage des données et la visionneuse du profil des données.
Important
La tâche de profilage des données fonctionne uniquement avec les données stockées dans SQL Server 2000 ou versions ultérieures. Cette tâche ne fonctionne pas avec les sources de données tierces ou basées sur des fichiers.
En outre, pour exécuter un package qui contient la tâche de profilage des données, vous devez utiliser un compte qui dispose d'autorisations de lecture/écriture, notamment les autorisations CREATE TABLE, sur la base de données tempdb.
Après avoir utilisé la tâche pour calculer des profils de données et enregistrer ceux-ci dans un fichier, vous pouvez utiliser la visionneuse du profil des données autonome pour passer en revue la sortie du profil. La visionneuse du profil des données prend également en charge l'exploration vers le bas pour vous aider à comprendre les problèmes de qualité des données qui sont identifiés dans la sortie du profil. Pour plus d'informations, consultez Affichage de la sortie du profil dans la visionneuse du profil des données.
Important
Le fichier de sortie peut contenir des données sensibles qui concernent votre base de données et les données qu'elle contient. Pour obtenir des suggestions sur la manière de sécuriser davantage ce fichier, consultez Contrôle de l'accès aux fichiers utilisés par des packages.
La fonction d'exploration vers le bas, disponible dans la visionneuse du profil des données, envoie des requêtes actives à la source de données d'origine.
Présentation des profils disponibles
La tâche de profilage des données peut calculer huit profils de données différents. Cinq de ces profils analysent des colonnes individuelles, tandis que les trois autres analysent plusieurs colonnes ou les relations entre des colonnes et des tables.
Les cinq profils suivants analysent des colonnes individuelles.
Profils qui analysent des colonnes individuelles |
Description |
---|---|
Profil de distribution de longueurs de colonne |
Signale toutes les longueurs distinctes des valeurs de chaîne dans la colonne sélectionnée, ainsi que le pourcentage de lignes dans la table que chaque longueur représente. Ce profil vous aide à identifier des problèmes dans vos données, tels que des valeurs non valides. Par exemple, vous profilez une colonne des codes des États américains, ceux-ci comportant deux caractères, et découvrez des valeurs excédant deux caractères. |
Profil de ratio de colonne Null |
Signale le pourcentage de valeurs Null dans la colonne sélectionnée. Ce profil vous aide à identifier des problèmes dans vos données, tels qu'un ratio élevé inattendu de valeurs Null dans une colonne. Par exemple, vous profilez une colonne de codes postaux et découvrez un pourcentage élevé et inacceptable de codes manquants. |
Profil de modèle de colonne |
Signale un ensemble d'expressions régulières qui reflètent le pourcentage spécifié de valeurs dans une colonne de chaîne. Ce profil vous aide à identifier des problèmes dans vos données, tels que des chaînes non valides. Il peut également suggérer des expressions régulières susceptibles d'être utilisées à l'avenir pour la validation de nouvelles valeurs. Par exemple, un profil de modèle d'une colonne de codes postaux américains peut générer les expressions régulières \d{5}-\d{4}, \d{5} et \d{9}. Si vous rencontrez d'autres expressions régulières, il est probable que vos données contiennent des valeurs non valides ou dans un format incorrect. |
Profil de statistiques de colonnes |
Signale des statistiques, telles que la valeur minimale, la valeur maximale, la moyenne et l'écart type pour des colonnes numériques, et la valeur minimale et la valeur maximale pour des colonnes datetime. Ce profil vous aide à identifier des problèmes dans vos données, tels que des dates non valides. Par exemple, vous profilez une colonne de dates historiques et découvrez une date maximale qui n'est pas encore passée. |
Profil de distribution de valeurs de colonne |
Signale toutes les valeurs distinctes dans la colonne sélectionnée, ainsi que le pourcentage de lignes dans la table que chaque valeur représente. Peut également signaler des valeurs qui représentent plus qu'un pourcentage de lignes spécifié dans la table. Ce profil vous aide à identifier des problèmes dans vos données, tels qu'un nombre incorrect de valeurs distinctes dans une colonne. Par exemple, vous profilez une colonne supposée contenir les États américains et découvrez plus de 50 valeurs distinctes. |
Les trois profils suivants analysent plusieurs colonnes ou les relations entre des colonnes et des tables.
Profils qui analysent plusieurs colonnes |
Description |
---|---|
Profil de clé candidate |
Signale si une colonne ou un ensemble de colonnes est une clé, ou une clé approximative, pour la table sélectionnée. Ce profil vous aide également à identifier des problèmes dans vos données, tels que des valeurs dupliquées dans une colonne clé potentielle. |
Profil de dépendance fonctionnelle |
Signale le degré de dépendance entre les valeurs d'une colonne (colonne dépendante) et celles d'une autre colonne ou d'un ensemble de colonnes (colonne déterminante). Ce profil vous aide également à identifier des problèmes dans vos données, tels que des valeurs non valides. Par exemple, vous profilez la dépendance entre une colonne qui contient les codes postaux américains et une colonne qui contient les États américains. Le même code postal doit toujours être associé au même État, mais le profil détecte des violations de cette dépendance. |
Profil d'inclusion de valeur |
Calcule le chevauchement des valeurs entre deux colonnes ou ensembles de colonnes. Ce profil permet de déterminer si une colonne ou un ensemble de colonnes peut servir de clé étrangère entre les tables sélectionnées. Ce profil vous aide également à identifier des problèmes dans vos données, tels que des valeurs non valides. Par exemple, vous profilez la colonne ProductID d'une table Sales et découvrez que la colonne contient des valeurs qui sont introuvables dans la colonne ProductID de la table Products. |
Conditions requises pour obtenir un profil valide
Pour qu'un profil soit valide, vous devez sélectionner des tables et des colonnes qui ne sont pas vides, et les colonnes doivent contenir des types de données valides pour le profil.
Types de données valides
Certains des profils disponibles ne sont significatifs que pour certains types de données. Par exemple, le fait de calculer un profil de modèle de colonne pour une colonne qui contient des valeurs numériques ou datetime n'est pas significatif. Par conséquent, un tel profil n'est pas valide.
Profil |
Types de données valides* |
---|---|
ColumnStatisticsProfile |
Colonnes de type numérique ou de type datetime (mean et stddev ne sont pas disponibles pour une colonne datetime) |
ColumnNullRatioProfile |
Toutes les colonnes* |
ColumnValueDistributionProfile |
Colonnes de types integer, char et datetime |
ColumnLengthDistributionProfile |
Colonnes de type char |
ColumnPatternProfile |
Colonnes de type char |
CandidateKeyProfile |
Colonnes de types integer, char et datetime |
FunctionalDependencyProfile |
Colonnes de types integer, char et datetime |
InclusionProfile |
Colonnes de types integer, char et datetime |
* Dans le tableau précédent des types de données valides, les types integer, char, datetime et numeric incluent les types de données spécifiques suivants :
Les types d'entiers sont bit, tinyint, smallint, int et bigint.
Les types de caractères incluent char, nchar, varchar et nvarchar,, mais pas varchar(max) et nvarchar(max).
Les types de date et d'heure incluent datetime, smalldatetime et timestamp.
Les types numériques incluent les types integer (sauf bit), money, smallmoney, decimal, float, real et numeric.
** Les types image, text, xml, udt et variant sont uniquement pris en charge pour le profil de ratio de colonne Null.
Tables et colonnes valides
Si la table ou colonne est vide, la tâche de profilage des données entreprend les actions suivantes :
Lorsque la table ou la vue sélectionnée est vide, la tâche de profilage des données ne calcule pas de profils.
Lorsque toutes les valeurs dans la colonne sélectionnée sont Null, la tâche de profilage des données calcule uniquement le profil de ratio de colonne Null. La tâche ne calcule pas les profils de distribution de longueurs de colonne, de modèle de colonne, de statistiques de colonnes ou de distribution de valeurs de colonne.
Fonctionnalités de la tâche de profilage des données
Pratiques, les options de configuration de la tâche de profilage des données sont les suivantes :
Colonnes génériques Lorsque vous configurez une demande de profil, la tâche accepte le caractère générique (*) à la place d'un nom de colonne. Cela simplifie la configuration et facilite la découverte des caractéristiques de données inconnues. Lorsque la tâche s'exécute, elle profile chaque colonne ayant un type de données approprié.
Profil rapide Vous pouvez sélectionner Profil rapide pour configurer la tâche rapidement. Un profil rapide profile une table ou une vue en utilisant tous les profils et paramètres par défaut.
Messages de journalisation personnalisés disponibles dans la tâche de profilage des données
Le tableau suivant répertorie les entrées de journal personnalisées pour la tâche de profilage des données. Pour plus d'informations, consultez Implémentation de la journalisation dans les packages et Messages personnalisés pour la journalisation.
Entrée du journal |
Description |
---|---|
DataProfilingTaskTrace |
Donne des informations détaillées sur l'état de la tâche. Les messages contiennent les informations suivantes :
|
Présentation de la sortie et de son schéma
La tâche de profilage des données génère en sortie les profils sélectionnés en langage XML structuré conformément au schéma DataProfile.xsd. Vous pouvez préciser si cette sortie XML doit être enregistrée dans un fichier ou dans une variable de package. Ce schéma est disponible en ligne à l'adresse https://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Vous pouvez, à partir de la page Web, enregistrer une copie locale du schéma. Vous pouvez ensuite examiner la copie locale du schéma dans Microsoft Visual Studio ou un autre éditeur de schéma, dans un éditeur XML ou encore dans un éditeur de texte tel que le Bloc-notes.
Ce schéma pour les informations sur la qualité des données peut être utile pour :
échanger des informations sur la qualité des données au sein d'une organisation ou entre plusieurs organisations ;
construire des outils personnalisés qui fonctionnent avec les informations sur la qualité des données.
L'espace de noms cible est identifié dans le schéma comme suit : https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.
Utilisation de la sortie dans le flux de travail conditionnel d'un package
Les composants de profilage des données n'incluent pas de fonctionnalités intégrées pour implémenter la logique conditionnelle dans le flux de travail du package Integration Services basée sur la sortie de la tâche de profilage des données. Toutefois, vous pouvez ajouter facilement cette logique, avec un minimum de programmation, dans une tâche de script. Ce code effectuerait une requête XPath sur la sortie XML, puis enregistrerait le résultat dans une variable de package. Les contraintes de précédence qui connectent la tâche de script aux tâches suivantes peuvent utiliser une expression pour déterminer le flux de travail. Par exemple, la tâche de script détecte que le pourcentage de valeurs Null dans une colonne dépasse un certain seuil. Lorsque cette condition est remplie, vous pouvez interrompre le package et résoudre le problème avant de continuer.
Configuration de la tâche de profilage des données
Vous configurez la tâche de profilage des données en utilisant l'Éditeur de tâche de profilage de données. L'éditeur comprend deux pages :
Page Général
Dans la page Général, vous spécifiez le fichier ou la variable de sortie. Vous pouvez également sélectionner Profil rapide pour configurer rapidement la tâche afin de calculer des profils à l'aide des paramètres par défaut. Pour plus d'informations, consultez Formulaire de profil rapide de table simple (tâche de profilage des données).Page Demandes de profil
Dans la page Demandes de profil, vous spécifiez la source de données, et vous sélectionnez et configurez les profils de données à calculer. Pour plus d'informations sur les différents profils que vous pouvez configurer, consultez les rubriques suivantes :Options Demande de profil de clé candidate (tâche de profilage des données)
Options Demande de profil de distribution de longueurs de colonne (tâche de profilage des données)
Options Demande de profil de ratio de colonne Null (tâche de profilage des données)
Options Demande de profil de modèle de colonne (tâche de profilage des données)
Options Demande de profil de statistiques de colonnes (tâche de profilage des données)
Options Demande de profil de distribution de valeurs de colonne (tâche de profilage des données)
Options Demande de profil de dépendance fonctionnelle (tâche de profilage des données)
Options Demande de profil d'inclusion de valeur (tâche de profilage des données)
|