Explorer les classifieurs entraînables

Effectué

Les organisations classent et étiquettent le contenu afin de pouvoir le protéger et le gérer correctement. La classification et l’étiquetage du contenu constituent le point de départ de la discipline de protection des informations. Microsoft 365 dispose de trois méthodes pour classer le contenu :

  • Manuellement. La classification manuelle nécessite un jugement et une action de la part de l’homme. Les utilisateurs et les administrateurs l’appliquent au contenu à mesure qu’ils la rencontrent. Vous pouvez utiliser les étiquettes préexistantes et les types d’informations sensibles ou utiliser des étiquettes créées personnalisées. Vous pouvez ensuite protéger le contenu et gérer sa destruction.

  • Mise en correspondance automatique des modèles. Cette catégorie de mécanismes de classification inclut la recherche de contenu par :

    • Mots clés ou valeurs de métadonnées (langage de requête de mot clé).
    • Utilisation de modèles précédemment identifiés d’informations sensibles telles que les numéros de sécurité sociale, de carte de crédit ou de compte bancaire.
    • Reconnaître un élément parce qu'il s'agit d'une variante d'un modèle (l'impression digitale de documents, qui sera abordée dans une autre unité de cette formation).
    • Utilisation de la présence de chaînes exactes correspondant exactement aux données.
  • Classifieurs avec capacité d’apprentissage. Un classifieur Microsoft 365 formable est un outil qu’une organisation peut « entraîner » pour reconnaître différents types de contenu. Microsoft 365 inclut une liste complète de classifieurs prédéfinis. Les organisations peuvent également créer leurs propres classifieurs personnalisés. Vous pouvez former des classifieurs en leur donnant des exemples à examiner. Une fois que vous avez formé un classifieur, l’organisation peut l’utiliser pour identifier les éléments pour l’application des étiquettes de confidentialité Office, des stratégies de conformité des communications et des stratégies d’étiquette de rétention.

Cette unité examine l’utilisation de classifieurs pouvant être entraînés.

Classifieurs avec capacité d’apprentissage

Pour commencer à utiliser des classifieurs pouvant être formés dans Microsoft Purview, vous pouvez commencer par lancer un processus d’analyse. Ce processus analyse les données de votre entreprise et identifie les modèles que le système peut utiliser pour entraîner le classifieur. Une fois que le système analyse vos données, il identifie les thèmes et modèles courants. Le système peut ensuite créer des règles pour le classifieur pouvant être formé à l’aide de ces informations. Ce processus permet de s’assurer que le classifieur entraînable est précis et efficace dans l’identification et la catégorisation des données. Une fois le processus d’analyse terminé, vous pouvez entraîner le classifieur pouvant être formé à l’aide des modèles et des règles identifiés. Une fois que vous avez terminé l’entraînement du classifieur, vous pouvez l’appliquer aux nouvelles données pour le classer automatiquement.

Avertissement

L’analyse peut prendre de 7 à 14 jours. Si vous ne souhaitez pas exécuter le processus d’analyse pour créer un classifieur de formation personnalisé pour votre organisation, vous pouvez utiliser les classifieurs intégrés de Microsoft Purview.

La première fois que vous accédez à la page Classifieurs de formation dans le portail de conformité Microsoft Purview, la capture d’écran suivante s’affiche.

Capture d’écran de la boîte de dialogue qui s’affiche la première fois que vous accédez à la page des classifieurs de formation dans le portail de conformité Microsoft Purview.

La création d’un classifieur entraîné personnalisé implique d’abord de lui donner des échantillons que vous avez sélectionnés manuellement et qui correspondent positivement à la catégorie. Ensuite, une fois que l’outil classifieur entraînable traite ces échantillons, vous testez la capacité des classifieurs à prédire en lui donnant une combinaison d’échantillons positifs et négatifs. Cette unité examine comment créer et entraîner un classifieur personnalisé. Il examine également comment améliorer les performances des classifieurs entraînés personnalisés et des classifieurs préentraînés tout au long de leur durée de vie via le réentraînement.

La méthode de classification fonctionne bien sur le contenu que les méthodes automatisées ou manuelles de critères spéciaux ne peuvent pas identifier facilement. Cette méthode de classification est plus axée sur l’utilisation d’un classifieur pour identifier un élément en fonction de ce qu’est l’élément, pas par les éléments qui se trouvent dans l’élément (critère correspondant). Un classifieur apprend à identifier un type de contenu en examinant des centaines d’exemples de ce type de contenu.

Remarque

Vous pouvez afficher les classifieurs pouvant être formés dans l’outil Explorateur de contenu en développant Classifieurs entraînables dans le panneau filtres. Les classifieurs pouvant être formés affichent automatiquement le nombre d’incidents détectés dans SharePoint, Teams et OneDrive, sans aucune étiquetage. Si vous ne souhaitez pas utiliser cette fonctionnalité, vous devez envoyer une demande avec Support Microsoft pour désactiver la classification préconçue. Cela désactive l’analyse de votre contenu sensible et étiqueté avant de créer des stratégies d’étiquetage.

Les classifieurs peuvent être utilisés comme condition pour :

  • Étiquetage automatique Office avec étiquettes de confidentialité
  • Application automatique d’une stratégie d’étiquette de rétention en fonction d’une condition
  • Conformité des communications

Remarque

Les classifieurs fonctionnent uniquement avec des éléments qui ne sont pas chiffrés.

Il existe deux types de classifieurs pouvant être formés :

  • Classifieurs préentraînés. Microsoft a créé et préentraîné plusieurs classifieurs que vous pouvez commencer à utiliser sans les entraîner. Ces classifieurs apparaissent avec l’état Prêt à utiliser.
  • Classifieurs entraînés personnalisés. Si une organisation a des besoins de classification qui s’étendent au-delà de ce que couvrent les classifieurs préentraînés, elle peut créer et former ses propres classifieurs.

Les sections suivantes examinent ces types de classifieur.

Classifieurs préentraînés

Microsoft 365 est fourni avec plusieurs classifieurs préentraînés :

  • Adulte, osé et sanglant. Détecte les images de ces types. La taille des images doit être comprise entre 50 kilo-octets (Ko) et 4 mégaoctets (Mo). Elles doivent également être supérieures à 50 x 50 pixels dans les dimensions hauteur x largeur. Le système prend en charge l’analyse et la détection des messages électroniques Exchange Online et des canaux et conversations Microsoft Teams.

  • Contrats. Ce classifieur détecte le contenu lié aux contrats juridiques. Par exemple, les déclarations de travail, les contrats de prêt et de bail, ainsi que les contrats d’emploi et de non-conformité.

  • Plaintes des clients. Le classifieur des plaintes des clients détecte les commentaires et les plaintes concernant les produits ou services de votre organisation. Ce classifieur peut vous aider à répondre aux exigences réglementaires en matière de détection et de tri des plaintes, telles que les exigences du Bureau de protection financière des consommateurs et de l’Administration des aliments et des drogues.

  • Discrimination. Ce classificateur détecte le langage discriminatoire explicite et est sensible au langage discriminatoire à l'encontre des communautés afro-américaines/noires par rapport à d'autres communautés.

  • Finances. Ce classifieur détecte le contenu dans les catégories finance d’entreprise, comptabilité, économie, banque et investissement.

  • Harcèlement. Ce classifieur détecte une catégorie spécifique d’éléments de texte de langage choquants. Ces éléments doivent être liés à une conduite offensante ciblant un ou plusieurs individus en fonction des caractéristiques suivantes : race, appartenance à l’origine sociale, origines nationales, sexe, orientation sexuelle, âge, handicap.

  • Santé. Ce classificateur détecte le contenu des aspects médicaux et de l'administration des soins de santé. Par exemple, les services médicaux, les diagnostics, le traitement, les réclamations, etc.

  • Ressources humaines (RH). Ce classifieur détecte le contenu dans les catégories liées aux ressources humaines. Par exemple, le recrutement, les entretiens, l'embauche, la formation, l'évaluation, l'avertissement et le licenciement.

  • Propriété intellectuelle( IP). Ce classifieur détecte le contenu dans les catégories liées à la propriété intellectuelle, telles que les secrets commerciaux et les informations confidentielles similaires.

  • Technologies de l’information (IT). Ce classifieur détecte le contenu dans les catégories Technologies de l’information et Cybersécurité. Par exemple, les paramètres réseau, la sécurité des informations, le matériel et les logiciels.

  • Affaires juridiques. Ce classifieur détecte le contenu dans les catégories liées aux affaires juridiques. Par exemple, les litiges, les procédures juridiques, les obligations légales, la terminologie juridique, le droit et la législation.

  • Approvisionnement. Ce classifieur détecte le contenu par catégories de biens, de citations, d’achats et de paiement pour l’approvisionnement de biens et de services.

  • Obscénités. Ce classifieur détecte une catégorie spécifique d’éléments de texte de langage choquants qui contiennent des expressions qui gênent la plupart des personnes.

  • CV. Ce classificateur détecte les éléments docx, .pdf, .rtf et .txt qui sont des comptes rendus textuels des qualifications personnelles, éducatives et professionnelles, de l'expérience professionnelle et d'autres informations d'identification personnelle d'un candidat.

  • Code source. Ce classifieur détecte les éléments qui contiennent un ensemble d’instructions et d’instructions écrites dans les 25 langages de programmation informatiques les plus utilisés sur GitHub : ActionScript, C, C#, C++, Clojure, CoffeeScript, Go, Haskell, Java, JavaScript, Lua, MATLAB, Objective-C, Perl, PHP, Python, R, Ruby, Scala, Shell, Swift, TeX, Vim Script.

    Remarque

    Le classifieur code source détecte quand la majeure partie du texte est du code source. Il ne détecte pas le texte du code source entrecoupé de texte brut.

  • Impôts. Ce classifieur détecte le contenu des relations fiscales, tels que la planification fiscale, les formulaires fiscaux, les déclarations fiscales, les réglementations fiscales.

  • Menace. Ce classifieur détecte une catégorie spécifique d’éléments de texte de langage choquants liés aux menaces de violence ou de dommages physiques ou de dommages à une personne ou à une propriété.

Ces classifieurs entraînables apparaissent dans le portail de conformité Microsoft Purview. Dans le volet de navigation, sélectionnez classification des données. Dans la page Classification des données, sélectionnez l’onglet Classifieurs pouvant être formés. Affichez les classifieurs avec l’état Prêt à utiliser.

Classifieurs personnalisés

Pour certaines organisations, les classifieurs préentraînés ne répondent pas à leurs besoins de classification des données. Dans ce cas, une organisation peut créer et former ses propres classifieurs. La création d’un classifieur personnalisé implique davantage de travail, mais une organisation peut les adapter pour mieux répondre à ses besoins. Les étapes générales impliquées dans la création d’un classifieur personnalisé sont les suivantes :

  1. Vous commencez à créer un classifieur entraînable personnalisé en lui donnant des exemples qui sont certainement dans la catégorie.
  2. Une fois que le classifieur traite ces exemples, vous le testez en lui donnant une combinaison d’exemples correspondants et non concordants.
  3. Le classifieur effectue ensuite des prédictions pour déterminer si un élément donné appartient à la catégorie que vous créez.
  4. Vous confirmez ensuite ses résultats, en triant les vrais positifs, les vrais négatifs, les faux positifs et les faux négatifs pour améliorer la précision de ses prédictions.
  5. Une fois que vous êtes satisfait des résultats des tests, vous déployez le classifieur en le publiant.

Lorsque vous publiez le classifieur, il trie les éléments dans des emplacements tels que SharePoint Online, Exchange et OneDrive, et classifie le contenu. Après avoir publié le classifieur, vous pouvez continuer à l’entraîner à l’aide d’un processus de commentaires similaire au processus d’entraînement initial.

Par exemple, vous pouvez créer des classifieurs pouvant être formés pour :

  • Documents juridiques. Par exemple, le privilège client de l’avocat, les jeux de clôture et les énoncés de travail.
  • Documents métier stratégiques. Par exemple, les publications de presse, les fusions et acquisitions, les offres, les plans commerciaux ou marketing, la propriété intellectuelle, les brevets et les documents de conception.
  • Informations de tarification. Par exemple, les factures, les devis de prix, les commandes professionnelles et les documents à la demande.
  • Informations financières. Par exemple, les investissements organisationnels et les résultats trimestriels ou annuels.

Préparer un classifieur entraînable personnalisé

Avant de vous plonger, il est utile de comprendre les composants impliqués dans la création d’un classifieur entraîné personnalisé. Les sections suivantes examinent chacun de ces composants.

Chronologie

Le diagramme suivant affiche une chronologie qui reflète un exemple de déploiement de classifieurs pouvant être formés.

Diagramme montrant les chronologie pour créer un exemple de déploiement de classifieurs pouvant être entraînés.

Conseil

Le système requiert une inscription pour la première fois uniquement pour les classifieurs pouvant être formés. L’exécution d’une évaluation de base du contenu d’une organisation prend 12 jours pour Microsoft 365. Un Administrateur général Microsoft 365 doit lancer le processus d’adhésion.

Flux de travail d’installation global

Pour en savoir plus sur le workflow global de création de classifieurs entraînables personnalisés, consultez Flux de processus pour créer des classifieurs entraînés personnalisés.

Contenu d’origine

Microsoft Purview utilise des classifieurs pouvant être formés pour identifier de façon indépendante et précise un élément comme étant dans une catégorie particulière de contenu. Pour créer un classifieur pouvant être formé, une organisation doit d’abord le présenter avec de nombreux exemples du type de contenu qui se trouvent dans la catégorie. L’amorçage est le processus d’alimentation d’échantillons au classifieur pouvant être formé. Une organisation doit sélectionner le contenu d’origine qu’elle souhaite utiliser pour représenter la catégorie de contenu.

Conseil

Vous devez avoir au moins 50 échantillons positifs, avec un maximum de 500. exemples. Le classifieur pouvant être formé traite jusqu’aux 500 échantillons créés les plus récents (par date/heure de création de fichier). Plus vous fournissez d’exemples, plus les prédictions effectuées par le classifieur sont précises.

Contenu de test

Une fois que le classifieur pouvant être formé traite suffisamment d’échantillons positifs pour créer un modèle de prédiction, l’organisation doit tester les prédictions effectuées par le classifieur. Vous devez tester avec des données différentes des données initiales que vous avez fournies au départ. Le test doit vérifier si le classifieur peut faire la distinction correctement entre les éléments qui correspondent à la catégorie et les éléments qui ne le font pas. Les tests doivent commencer par sélectionner un autre ensemble de contenus sélectionnés manuellement, appelé exemple de test. Il doit se composer d’échantillons qui appartiennent à la catégorie et d’exemples qui ne le sont pas.

Une fois que le classifieur a traité cet exemple de test, vous devez examiner manuellement les résultats. Dans ce cas, vous devez vérifier si chaque prédiction est correcte, incorrecte ou si vous n’êtes pas sûr. Le classifieur pouvant être entraîné utilise ces commentaires pour améliorer son modèle de prédiction.

Conseil

Pour de meilleurs résultats, vous devez disposer d’au moins 200 éléments dans votre exemple de test. Elle doit inclure une distribution uniforme des correspondances positives et négatives.