Options Demande de profil de modèle de colonne (tâche de profilage des données)
Utilisez le volet Propriétés de la demande de la page Demandes de profil pour définir les options de la Demande de profil de modèle de colonne sélectionnée dans le volet Demandes. Un profil de modèle de colonne signale un ensemble d'expressions régulières qui reflètent le pourcentage spécifié des valeurs dans une colonne de chaîne. Ce profil peut vous aider à identifier des problèmes dans vos données, tels que les chaînes non valides, et peut suggérer des expressions régulières susceptibles d'être utilisées à l'avenir pour la validation de nouvelles valeurs. Par exemple, le profil de modèle d'une colonne États-Unis/Codes postaux peut générer les expressions régulières \d{5}-\d{4}, \d{5} et \d{9}. Si vous rencontrez d'autres expressions régulières, il est probable que vos données contiennent des valeurs qui ne sont pas valides ou utilisent un format incorrect.
Notes
Les options décrites dans cette rubrique apparaissent sur la page Demandes de profil de l' Éditeur de tâche de profilage de données. Pour plus d’informations sur cette page de l’éditeur, consultez Éditeur de tâche de profilage de données (Page Demandes de profil).
Pour plus d’informations sur l’utilisation de la tâche de profilage des données, consultez Configuration de la tâche de profilage des données. Pour plus d’informations sur l’utilisation de la visionneuse du profil des données pour analyser le résultat de la tâche de profilage des données, consultez Visionneuse du profil des données.
Fonctionnement de l'utilisation des séparateurs et des symboles
Avant de calculer les modèles d’une Demande de profil de modèle de colonne, la tâche de profilage des données marque les données sous forme de jetons. Autrement dit, elle sépare les valeurs de chaîne en unités plus petites appelées « jetons ». Pour séparer les chaînes en jetons, la tâche se base sur les séparateurs et les symboles que vous spécifiez pour les propriétés Séparateurs et Symboles :
Séparateurs Par défaut, la liste des séparateurs contient les caractères suivants : espace, tabulation horizontale (\t), nouvelle ligne (\n) et retour chariot (\r). Vous pouvez définir d'autres séparateurs mais vous ne pouvez pas supprimer les séparateurs par défaut.
Symboles Par défaut, la liste des symboles contient les caractères suivants :
,.;:-"'
~=&/@ !? ()<>[]{}|#*^%. For example, if the symbols are "
()-', la valeur « (425) 123-4567 » est tokenisée en tant que ["(« , « 425 », « ) », « 123 », « -« , « 4567 », « )"].
Un caractère ne peut pas être à la fois un séparateur et un symbole.
Tous les séparateurs sont normalisés en un espace unique dans le cadre du processus de création de jetons tandis que les symboles sont conservés.
Fonctionnement de l'utilisation de la table des balises
Vous pouvez éventuellement regrouper les jetons associés par une même étiquette en stockant les étiquettes et les termes associés dans une table spéciale que vous créez dans une base de données SQL Server. La table des balises doit être composée de deux colonnes de chaîne, l’une appelée « Balise », l’autre « Terme ». Ces colonnes peuvent être de type char
, nchar
, varchar
ou nvarchar
, mais pas text
ou ntext
. Vous pouvez fusionner plusieurs balises et leurs termes correspondants dans une seule et unique table. Une demande de profil de modèle de colonne peut utiliser une seule table des balises. Vous pouvez utiliser un gestionnaire de connexions ADO.NET distinct pour vous connecter à la table d’étiquettes. La table des balises peut donc être stockée dans une autre base de données ou sur un autre serveur que les données sources.
Par exemple, vous pouvez regrouper les valeurs « East », « West », « North » et « South » susceptibles d'apparaître dans des adresses postales en utilisant la balise unique « Direction ». Un exemple de cette table des balises est proposé ci-dessous.
Tag | Terme |
---|---|
Sens | Est |
Sens | West |
Sens | Nord |
Sens | Sud |
Vous pouvez éventuellement utiliser une autre balise pour regrouper les différents mots qui expriment la notion de « rue » (Street) dans les adresses postales :
Tag | Terme |
---|---|
Rue | Rue |
Rue | Avenue |
Rue | Emplacement |
Rue | Moyen |
D'après cette combinaison de balises, le modèle obtenu pour une adresse postale peut se présenter de la manière suivante :
\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street
Notes
L'utilisation d'une table des balises diminue les performances de la tâche de profilage des données. N'utilisez pas plus de 10 balises ou plus de 100 termes par balise.
Le même terme peut appartenir à plusieurs balises.
Options Propriétés de la demande
Pour une demande de profil de modèle de colonne, le volet Propriétés de la demande affiche les groupes d’options suivants :
Données, qui incluent les options TableOrView et Column
Général
Options
Options de données
ConnectionManager
Sélectionnez le gestionnaire de connexions ADO.NET existant qui utilise le fournisseur de données .NET pour SQL Server (SqlClient) pour établir la connexion à la base de données SQL Server qui contient la table ou la vue à profiler.
TableOrView
Sélectionnez la table ou la vue existante qui contient la colonne à profiler.
Pour plus d'informations, consultez la section « Options TableorView » dans cette rubrique.
Colonne
Sélectionnez la colonne existante à profiler. Sélectionnez (*) pour profiler toutes les colonnes.
Pour plus d'informations, consultez la section « Options de colonne » dans cette rubrique.
Options TableOrView
Schéma
Spécifie le schéma auquel la table sélectionnée appartient. Cette option est en lecture seule.
Table
Affiche le nom de la table sélectionnée. Cette option est en lecture seule.
Options de colonne
IsWildCard
Indique si le caractère générique (*) a été sélectionné. Cette option est définie sur True si vous avez sélectionné (*) pour profiler toutes les colonnes. Sa valeur est False si vous avez sélectionné une colonne spécifique dont le profil doit être généré. Cette option est en lecture seule.
ColumnName
Affiche le nom de la colonne sélectionnée. Cette option est vide si vous avez sélectionné (*) pour profiler toutes les colonnes. Cette option est en lecture seule.
StringCompareOptions
Cette option ne s'applique pas au profil de modèle de colonne.
Options générales
RequestID
Tapez un nom descriptif pour identifier cette demande de profil. En règle générale, il n'est pas nécessaire de modifier la valeur générée automatiquement.
Options
MaxNumberOfPatterns
Spécifiez le nombre maximal de modèles que vous souhaitez calculer à l'aide du profil. La valeur par défaut de cette option est 10. La valeur maximale est 100.
PercentageDataCoverageDesired
Spécifiez le pourcentage des données que vous souhaitez refléter avec les modèles calculés. La valeur par défaut de cette option est 95 (pourcent).
CaseSensitive
Indiquez si les modèles doivent respecter la casse. La valeur par défaut de cette option est False.
Délimiteurs
Répertoriez les caractères à traiter en tant qu'équivalents des espaces entre les mots lorsque vous marquez du texte sous forme de jetons. Par défaut, la liste des séparateurs contient les caractères suivants : espace, tabulation horizontale (\t), nouvelle ligne (\n) et retour chariot (\r). Vous pouvez définir d'autres séparateurs mais vous ne pouvez pas supprimer les séparateurs par défaut.
Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation des séparateurs et des symboles » plus haut dans cette rubrique.
Symboles
Répertoriez les symboles à conserver dans le cadre des modèles. Les exemples peuvent inclure « / » pour les dates, « : » pour les heures et « @ » pour les adresses de messagerie. Par défaut, la liste des symboles contient les caractères suivants : ,.;:-"'
~=&/@ !? ()<>[]{}|#*^%'.
Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation des séparateurs et des symboles » plus haut dans cette rubrique.
TagTableConnectionManager
Sélectionnez le gestionnaire de connexions ADO.NET existant qui utilise le fournisseur de données .NET pour SQL Server (SqlClient) afin de vous connecter à la base de données SQL Server qui contient la table d’étiquettes.
Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation de la table des balises » plus haut dans cette rubrique.
TagTableName
Sélectionnez la table des balises existante qui doit être composée de deux colonnes de chaîne intitulées Balise et Terme.
Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation de la table des balises » plus haut dans cette rubrique.
Voir aussi
Éditeur de tâche de profilage de données (page Général)
Formulaire de profil rapide de table simple (tâche de profilage des données)