Architecture logique (Analysis Services - Exploration de données)

Article
04/27/2017

L'exploration de données est un processus qui implique l'interaction de plusieurs composants.

Vous accédez aux sources de données dans une base de données SQL Server ou à toute autre source de données à utiliser pour l’apprentissage, le test ou les prédictions.
Vous définissez des structures et des modèles d’exploration de données à l’aide de SQL Server Data Tools (SSDT) ou de Visual Studio.
Vous gérez des objets d’exploration de données et créez des prédictions et des requêtes à l’aide de SQL Server Management Studio.
Lorsque la solution est complète, vous pouvez la déployer sur une instance d'Analysis Services.

Le processus de création de ces objets de solution a déjà été décrit. Pour plus d’informations, consultez Solutions d’exploration de données.

Données issues d'une source d'exploration de données

Les données utilisées dans l'exploration de données ne sont pas stockées dans la solution d'exploration de données ; seules les liaisons sont stockées. Les données peuvent résider dans une base de données créée dans une version précédente de SQL Server, un système CRM, ou même un fichier plat. Lors de l'apprentissage de la structure ou du modèle par traitement, un résumé statistiques des données est créé et stocké dans un cache qui peut être rendu persistant pour une utilisation dans des opérations ultérieures, ou supprimé après le traitement. Pour plus d’informations, consultez Structures d’exploration de données (Analysis Services - Exploration de données).

Vous combinez des données disparates au sein de l’objet vue de source de données (DSV) Analysis Services, qui fournit une couche d’abstraction au-dessus de votre source de données. Vous pouvez spécifier des jointures entre les tables ou ajouter des tables qui ont une relation plusieurs-à-un pour créer des colonnes de table imbriquée. La définition de ces objets, la source de données et la vue de source de données, est stockée dans la solution avec les extensions de fichier, *.ds et *.dsv. Pour plus d’informations sur la création et l’utilisation de sources de données Analysis Services et de vues de sources de données, consultez Sources de données prises en charge (SSAS Multidimensionnel) .

Vous pouvez également définir et modifier des sources de données et des vues de source de données en utilisant AMO ou XMLA. Pour plus d’informations sur l’utilisation de ces objets par programmation, consultez Vue d’ensemble de l’architecture logique (Analysis Services - Données multidimensionnelles).

Structures d'exploration de données

Une structure d'exploration de données est un conteneur de données logiques qui définit le domaine de données à partir duquel les modèles d'exploration de données sont créés. Une structure d'exploration de données unique peut prendre en charge plusieurs modèles d'exploration de données.

Lorsque vous devez utiliser les données de la solution d'exploration de données, Analysis Services les lit à partir de la source et génère un cache d'agrégats et d'autres informations. Par défaut ce cache est persistant afin que les données d'apprentissage puissent être réutilisées pour prendre en charge les modèles supplémentaires. Si vous devez supprimer le cache, donnez à la propriété CacheMode sur l'objet de structure d'exploration de données la valeur ClearAfterProcessing. Pour plus d’informations, consultez Classes d’exploration de données AMO.

SQL Server 2014 Analysis Services (SSAS) offre également la possibilité de séparer vos données en jeux de données d’entraînement et de test, afin que vous puissiez tester vos modèles d’exploration de données sur un ensemble de données représentatif, sélectionné de manière aléatoire. Les données ne sont pas réellement stockées séparément ; en revanche, les données de cas dans le cache de la structure sont identifiées par une propriété qui indique si ce cas particulier est utilisé pour l'apprentissage ou pour le test. Si le cache est supprimé, ces informations ne peuvent pas être récupérées.

Pour plus d’informations, consultez Structures d’exploration de données (Analysis Services - Exploration de données).

Une structure d'exploration de données peut contenir des tables imbriquées. Une table imbriquée fournit des détails supplémentaires sur le cas modélisé dans la table de données primaire. Pour plus d’informations, consultez Tables imbriquées (Analysis Services - Exploration de données)

Modèles d'exploration de données

Avant le traitement, un modèle d'exploration de données n'est qu'une combinaison de propriétés de métadonnées. Ces propriétés spécifient une structure d'exploration de données, un algorithme d'exploration de données ainsi qu’une collection définie de paramétrages et de paramètres de filtre qui affectent les données utilisées et leur mode de traitement. Pour plus d’informations, consultez Modèles d’exploration de données (Analysis Services - Exploration de données).

Lorsque vous traitez le modèle, les données d'apprentissage qui étaient stockées dans le cache de la structure d'exploration de données sont utilisées pour générer des schémas, basés sur les propriétés statistiques des données et sur l'heuristique définie par l'algorithme et ses paramètres. C’est ce qu’on appelle l’entraînement du modèle.

Le résultat de l’apprentissage est un jeu de données de synthèse, qui figure dans le contenu de modèleet décrit les schémas trouvés, et fournit les règles selon lesquelles les prédictions sont générées. Pour plus d’informations, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).

Dans certains cas, la structure logique du modèle peut également être exportée dans un fichier qui représente des formules de modèle et des liaisons de données conformément à un format standard, le langage PMML (Predictive Modeling Markup Language). Cette structure logique peut être importée dans d'autres systèmes qui utilisent PMML et le modèle ainsi décrit peut ensuite être utilisé pour la prédiction. Pour plus d’informations, consultez Présentation de l’instruction DMX Select.

Objets d'exploration de données personnalisés

D'autres objets que vous utilisez dans le contexte d'un projet d'exploration de données, tels que les graphiques d'analyse de précision ou des requêtes de prédiction, ne sont pas conservés dans la solution, mais peuvent faire l'objet d'un script à l'aide d'ASSL ou être générés à l'aide d'AMO.

En outre, vous pouvez étendre les services et fonctionnalités disponibles sur un instance d’Analysis Services en ajoutant ces objets personnalisés :

Assemblys personnalisés
Les assemblys .NET peuvent être définis à l'aide du langage compatible CLR ou COM, puis enregistrés avec une instance de SQL Server. Les fichiers d'assemblys sont chargés à partir de l'emplacement défini par l'application et une copie est enregistrée avec les données, dans le serveur. La copie du fichier d'assembly est utilisée pour charger l'assembly chaque fois que le service est démarré.

Pour plus d’informations, consultez Gestion des assemblys de modèles multidimensionnels.

Procédures stockées personnalisées
L’exploration de données Analysis Services prend en charge l’utilisation de procédures stockées pour travailler avec des objets d’exploration de données. Vous pouvez créer vos propres procédures stockées pour étendre les fonctionnalités et utiliser plus facilement les données retournées par des requêtes de prédiction et des requêtes de contenu.

Définition de procédures stockées

Les procédures stockées suivantes sont prises en charge pour être utilisées dans les validations croisées.

Procédures stockées d'exploration de données (Analysis Services - Exploration de données)

En outre, Analysis Services contient de nombreuses procédures stockées système qui sont utilisées en interne pour l’exploration de données. Bien que les procédures stockées système sont réservées à un usage interne, elles peuvent s'avérer d'utiles raccourcis. Microsoft se réserve le droit de modifier ces procédures stockées si nécessaire ; par conséquent, dans un environnement de production, nous vous recommandons de créer des requêtes avec DMX, AMO, ou XMLA.

Algorithmes de plug-in personnalisés
Analysis Services fournit un mécanisme permettant de créer vos propres algorithmes, puis d’ajouter les algorithmes en tant que nouveau service d’exploration de données au serveur instance.

Analysis Services utilise ces interfaces COM pour communiquer avec les algorithmes de plug-in. Pour en savoir plus sur la manière d’implémenter de nouveaux algorithmes, consultez Algorithmes de plug-in.

Vous devez inscrire chaque nouveau algorithme avant de pouvoir l'utiliser. Pour inscrire un algorithme, vous ajoutez les métadonnées requises pour les algorithmes dans le fichier .ini du instance d’Analysis Services. Vous devez ajouter les informations à chaque instance dans laquelle vous envisagez d'utiliser le nouvel algorithme. Après avoir ajouté l'algorithme, vous pouvez redémarrer l'instance, puis utilisez l'ensemble de lignes de schéma MINING_SERVICES pour afficher le nouvel algorithme, y compris les options et les fournisseurs que l'algorithme prend en charge.

Voir aussi

Traitement des objets de modèles multidimensionnels
Guide de référence du langage DMX (Data Mining Extensions)

Partager via