Indexation sémantique pour Microsoft 365 Copilot
Microsoft 365 Copilot mappe les données de votre organization dans un index lexical et sémantique avancé pour augmenter la pertinence et la précision de la recherche. Copilot peut accéder au contexte et aux relations au sein de vos données en utilisant Microsoft Graph, ce qui permet une récupération plus précise des informations contextuellement. L’index améliore les interactions avec vos données, offrant aux utilisateurs une expérience plus riche et plus transparente. Conçu avec une approche complète de la sécurité, de la conformité et de la confidentialité, Copilot garantit que toutes les limites organisationnelles au sein de votre locataire sont respectées. Avec Microsoft 365 Copilot, les utilisateurs peuvent être sûrs que leurs recherches sont pertinentes, précises et sécurisées.
Qu’est-ce qu’un index ?
Microsoft 365 Copilot améliore la recherche grâce à une compréhension lexicale et sémantique avancée des données de votre organization.
Le concept d’indexation des données est bien établi dans Microsoft 365. L’indexation est l’un des principaux moyens pour les services Microsoft 365 d’accéder à l’énorme quantité de données dans Microsoft Graph, où réside votre locataire Microsoft 365. Avec l’indexation, les utilisateurs voient les résultats de recherche de Microsoft Graph, y compris le contenu et les signaux de la plupart des applications Microsoft 365 dans votre locataire. Cela garantit que les résultats de la recherche sont personnalisés et élevés en fonction de vos connexions entre le contenu et les personnes de votre réseau.
L’index sémantique est généré à partir du contenu dans Microsoft Graph. Il est utilisé pour faciliter la production de réponses contextuellement pertinentes aux requêtes utilisateur. Il permet aux organisations de rechercher des milliards de vecteurs (représentations mathématiques de caractéristiques ou d’attributs) et de retourner les résultats associés. Combiné aux améliorations apportées à Microsoft Graph, l’index sémantique vous connecte avec des informations pertinentes dans votre organization. Il repose sur l’approche complète de Microsoft en matière de sécurité, de conformité et de confidentialité, et respecte toutes les limites organisationnelles au sein de votre locataire.
Les interactions avec les données dans Microsoft Graph sont basées sur la correspondance mot clé, la personnalisation et la correspondance sociale. La recherche par mot clé interroge un index dans Microsoft Graph, qui mappe à des emplacements dans des documents ou un ensemble de documents. Microsoft 365 utilise Microsoft Graph pour classer le contenu le plus pertinent en fonction de sa connaissance des signaux supplémentaires pour les utilisateurs et leur réseau proche. C’est ce que l’on appelle la personnalisation et la mise en correspondance sociale dans Microsoft 365, ce qui détermine la pertinence des requêtes par rapport au contenu de votre organization. L’accès aux données de locataire dans Microsoft Graph est contrôlé par le contrôle d’accès en fonction du rôle. Les organisations contrôlent toujours les fonctionnalités de Recherche Microsoft via le portail de recherche et d’intelligence dans le Centre d’administration Microsoft 365.
Comment l’indexation sémantique permet de gérer vos données
L’indexation sémantique de vos données améliore l’expérience Microsoft 365 Copilot dans business chat et dans les applications Microsoft 365. Il prend en charge une meilleure compréhension conceptuelle et de base du contenu de vos données en ligne qui est automatiquement activée par Microsoft. Pour ce faire, il crée des index vectorisés. Un vecteur est une représentation numérique d’un mot, d’un pixel d’image ou d’un autre point de données. Le vecteur est organisé ou mappé avec des nombres proches placés à proximité les uns des autres pour représenter la similarité. Les vecteurs sont stockés dans des espaces multidimensionnels où des points de données sémantiquement similaires sont regroupés dans l’espace vectoriel, ce qui permet à Microsoft 365 de gérer un ensemble plus large de requêtes de recherche au-delà de la « correspondance exacte ».
En pratique, cela signifie que les services Microsoft 365 tels que Microsoft 365 Copilot peuvent :
- Comprendre les relations entre différentes formes de mots (par exemple, technologie, technologie, technologies ; États-Unis, États-Unis, États-Unis, États-Unis d’Amérique ; chien, chat, animal de compagnie).
- Capturez des synonymes pour étendre la quantité d’informations pouvant faire l’objet d’une recherche, notamment l’intention des phrases, des extraits de code, des documents et des réunions.
- Identifiez les ressources associées à votre requête ou à votre exemple de contenu.
Le graphique suivant utilise du texte (au lieu des nombres utilisés par les index vectorisés) pour montrer un exemple de similarité entre les points de données :
L’indexation sémantique permet une recherche et une récupération rapides et précises des données en fonction de leur distance de vecteur ou de leur similarité. Cela signifie qu’en plus d’utiliser des méthodes lexicales traditionnelles pour interroger en fonction de correspondances exactes ou de critères prédéfinis, l’indexation sémantique peut trouver les données les plus similaires ou pertinentes en fonction de la signification sémantique ou contextuelle.
Fonctionnalités
Les fonctionnalités d’indexation sémantique suivantes font plus qu’améliorer les résultats de la recherche : Ils collaborent pour vous aider à comprendre vos données, à trouver des informations plus rapidement et à améliorer votre productivité. Les utilisateurs peuvent interagir avec l’index sémantique initialement via l’intégration Microsoft 365 Copilot. Nous générons un index sémantique pour les utilisateurs disposant d’une licence Microsoft 365 Copilot payante. Voici les détails du fonctionnement de chaque fonctionnalité.
Microsoft 365 Copilot avec Microsoft Graph
L’indexation sémantique fournit les données de base pour la récupération des connaissances via Microsoft Copilot en comprenant l’intention de votre requête et en ajoutant des informations supplémentaires à votre invite de Microsoft Copilot.
Les informations pertinentes sont obtenues dans Microsoft Graph et l’index sémantique pour fournir au modèle LLM (Large Language Model) plus d’informations à raisonner. Par exemple, supposons que vous souhaitiez Microsoft Copilot localiser un e-mail où un collègue a fait l’éloge du travail de conception d’un fournisseur. L’indexation sémantique inclut des mots proches (par exemple, excités, émerveillés) dans la recherche pour élargir la zone de recherche et donner le meilleur résultat. Tout ce travail se déroule en arrière-plan pour ajouter de la pertinence aux résultats que vous recherchez avec Microsoft Copilot, sans ajouter de complexité.
Fonctionnement de l’indexation sémantique
L’indexation sémantique permet Microsoft 365 Copilot résultats de recherche en permettant une compréhension conceptuelle de vos données en ligne pour compléter la compréhension lexicale que nous avons également. L’indexation est automatiquement activée par Microsoft.
Aujourd’hui, un index sémantique est créé pour chaque abonnement au niveau du locataire et de l’utilisateur. Il s’agit d’un index organization généré à partir de fichiers SharePoint Online basés sur du texte. Toutefois, il ne présente les résultats à un utilisateur que si celui-ci a déjà accès au contenu contrôlé par le contrôle d’accès en fonction du rôle. En outre, le site SharePoint Online doit continuer à faire l’objet d’une recherche. Avec le temps, nous allons également générer du contenu d’index au niveau de l’utilisateur. Cela ajoute un index personnalisé d’un jeu de données de travail accessible aux utilisateurs effectuant des tâches quotidiennes. Cela inclut tout contenu textuel que vous créez ou avec lequel vous interagissez, comme les e-mails, les documents qui vous mention, que vous commentez ou partagez.
La section suivante explique comment activer chaque index, comment le flux de données dans Microsoft 365 Copilot utilise l’indexation sémantique, quels types de fichiers chaque index peut gérer et comment chaque index traite les mises à jour.
Activation
Chaque client Microsoft 365 Copilot dispose désormais d’un index au niveau du locataire. Le processus d’indexation ne nécessite aucune intervention administrative.
Flux de données
Microsoft 365 Copilot améliore la précision de la recherche en utilisant des insights lexical et sémantiques avancés à partir des données Microsoft Graph. Le diagramme suivant montre comment fonctionne le flux de données pour une requête à l’aide de Microsoft 365 Copilot.
Les invites utilisateur des applications Microsoft 365 sont envoyées à Copilot (1), et Copilot accède à Microsoft Graph et à l’index sémantique pour traitement (2). Copilot envoie l’invite modifiée au modèle de langage large (3), reçoit la réponse LLM (4), puis accède à Microsoft Graph et à l’index sémantique pour le post-traitement (5). Copilot renvoie ensuite la réponse et la commande d’application aux applications Microsoft 365. Toutes les demandes sont chiffrées par HTTPS et les données client restent chiffrées au repos.
Types de contenu pris en charge
Les réponses à la base de Microsoft Graph peuvent utiliser la compréhension sémantique des boîtes aux lettres utilisateur et des types de fichiers répertoriés dans le tableau suivant, avec davantage de types de fichiers pris en charge au fil du temps. Une liste des types de fichiers pris en charge pour l’index de niveau utilisateur et l’index au niveau du locataire est incluse dans la table.
Type de contenu/fichier | Niveau utilisateur | Niveau du locataire |
---|---|---|
Boîte aux lettres utilisateur | Pris en charge | Non applicable |
Boîte aux lettres déléguée | Non pris en charge | Non applicable |
Boîte aux lettres partagée | Non pris en charge | Non applicable |
Données de boîte aux lettres archivées | Non pris en charge | Non applicable |
Données SharePoint archivées | Non pris en charge | Non pris en charge |
documents Word (doc/docx) | Pris en charge | Pris en charge |
PowerPoint (pptx) | Pris en charge | Pris en charge |
Fichiers .pdf | Pris en charge | Pris en charge |
Pages web (aspx) | Pris en charge | Pris en charge |
Fichiers OneNote (un) | Pris en charge | Pris en charge |
Données du connecteur Graph | Non applicable | Pris en charge |
Remarque
Les fichiers jusqu’à 512 Mo sont désormais pris en charge pour les extensions PDF, PPTX et DOCX. Cette amélioration permet aux utilisateurs de Copilot d’analyser, de résumer et de générer efficacement des insights à partir de ces fichiers volumineux.
Mises à jour d’index
Lorsque les données Microsoft Graph sont indexées pour un client pour la première fois, les documents créés par les utilisateurs sont indexés en quasi-temps réel dans la boîte aux lettres de l’utilisateur. Les nouveaux documents ajoutés aux sites SharePoint Online accessibles, via l’héritage de site, par au moins deux utilisateurs sont indexés quotidiennement. Lorsqu’un document de niveau utilisateur et locataire indexé est mis à jour, les modifications sont immédiatement indexées.
Administration
Nous fournissons aux administrateurs des activités facultatives pour préparer et gérer l’indexation sémantique via le Centre d’administration Microsoft 365. Aucune intervention administrative n’est requise pour activer l’indexation sémantique, car le service est automatiquement activé par Microsoft. L’indexation sémantique est une amélioration de La recherche Microsoft 365 et ne peut pas être désactivée.
Les administrateurs peuvent choisir de préparer et de gérer l’indexation sémantique en examinant les considérations relatives à la planification et au déploiement d’une collaboration de fichiers dans SharePoint et au partage des autorisations dans l’expérience moderne SharePoint. Les administrateurs peuvent choisir d’exclure des fichiers de l’indexation sémantique en examinant les considérations relatives à l’exclusion de données avec Protection contre la perte de données Microsoft Purview (DLP). Si aucune solution DLP n’est présente, les administrateurs peuvent exclure les sites SharePoint Online de l’index au niveau du locataire.
Exclusion des sites SharePoint Online
Il arrive que des organisations sans Protection contre la perte de données Microsoft Purview souhaitent exclure un site SharePoint Online de l’indexation de ses données par Recherche Microsoft. Ces étapes ne doivent être prises en compte que pour les données sensibles, telles que la paie, les ressources humaines ou les informations financières. Pour exclure un site SharePoint Online, procédez comme suit :
Accédez au site avec les autorisations d’administrateur appropriées.
Sélectionnez Paramètres , puis Informations sur le site dans le menu déroulant.
Sélectionnez Afficher tous les paramètres du site pour afficher la page Paramètres du site.
Sélectionnez Recherche et disponibilité hors connexion sous la catégorie Recherche , puis sélectionnez Non pour Autoriser ce site à apparaître dans les résultats de la recherche afin de l’exclure à la fois de Recherche Microsoft et de la recherche d’index sémantique. Cette opération peut également être effectuée avec PowerShell pour plusieurs sites.
Recherche Microsoft et l’indexation sémantique prennent en charge l’exclusion du contenu SharePoint Online de l’index au niveau du locataire uniquement. Il n’existe aucune option permettant d’exclure les résultats de Recherche Microsoft uniquement ou de l’indexation sémantique uniquement ; les actions s’appliquent aux deux en même temps.
Configuration des insights sur les éléments
Dans la page Recherche et intelligence du Centre d’administration Microsoft 365, les informations sur les éléments sont activées par défaut. La désactivation des informations sur les personnes ou les éléments réduit l’expérience de recherche Microsoft et d’index sémantique, car les résultats n’incluent pas les personnes pertinentes qui auraient été dérivées de groupes de distribution ou de l’organigramme.
Personnes insights fournissent une liste de personnes pertinentes à un utilisateur en fonction de leur travail collaboratif public dans Microsoft 365. La collaboration publique comprend les membres d’un groupe de distribution public et les individus connectés dans l’organigramme.
Les informations sur les éléments permettent d’obtenir des recommandations pour les personnes de votre organization en fonction de leur travail collaboratif dans Microsoft 365. Ces recommandations peuvent inclure, sans s’y limiter, des documents ou d’autres types de contenu et apparaître dans les cartes de personnes (contacts), Delve, l’application Microsoft 365, Microsoft Copilot résultats et d’autres emplacements.
Les insights d’élément et les insights Personnes ne couvrent pas les fonctionnalités de personnalisation basées sur les données d’un utilisateur.
Incorporation d’informations tierces
À l’aide des connecteurs Copilot, les organisations peuvent importer des données organisationnelles ou du contenu provenant de sources externes dans Microsoft Graph. Une fois dans Microsoft Graph, ce contenu est indexé afin que Copilot puisse y accéder, tout en conservant des contrôles d’accès pour le contenu. Cela étend les types de sources de contenu qui peuvent faire l’objet d’une recherche dans vos applications de productivité Microsoft 365 et dans l’écosystème Microsoft plus large. Notez que ce processus fonctionne mieux lorsque le contenu du connecteur est riche en texte. Les données tierces peuvent être hébergées localement ou dans un cloud public ou privé. Pour en savoir plus sur les exigences de licence des connecteurs graph pour les Microsoft 365 Entreprise et les Microsoft 365 Copilot, consultez Conditions requises et tarification des licences.
Confidentialité, conformité et sécurité
Le modèle d’autorisations relatif à votre locataire Microsoft 365 peut vous aider à garantir que les données ne fuient pas involontairement entre les utilisateurs, les groupes et les locataires. Microsoft 365 Copilot présente uniquement les données auxquelles chaque individu peut accéder à l’aide des mêmes contrôles sous-jacents pour l’accès aux données utilisés dans d’autres services Microsoft 365. Lorsque les données sont indexées, nous continuons à respecter la limite d’accès basée sur l’identité de l’utilisateur afin que le processus de mise à l’échelle accède uniquement au contenu auquel l’utilisateur actuel est autorisé à accéder. Pour plus d’informations, consultez la politique de confidentialité de Microsoft et la documentation du service.
Microsoft 365 Copilot est conforme à nos engagements existants en matière de confidentialité, de sécurité et de conformité envers les clients commerciaux de Microsoft 365, notamment le RGPD (Règlement général sur la protection des données) et la limite de données de l’Union européenne (UE). Requêtes, les réponses et les données accessibles via l’indexation sémantique ne sont pas utilisés pour former les llms de base, y compris celles utilisées par Microsoft 365 Copilot. Pour plus d’informations, consultez Données, confidentialité et sécurité pour Microsoft 365 Copilot.
Stockage et traitement
Les données générées par l’indexation restent dans le locataire de votre entreprise et sont conformes à vos stratégies et processus de sécurité, de conformité, d’identité et de confidentialité. L’indexation sémantique fonctionne uniquement avec le contenu pour lequel vos utilisateurs disposent déjà d’autorisations et n’affecte pas les quotas de stockage.
Les informations d’index au niveau de l’utilisateur sont stockées là où se trouve la boîte aux lettres de l’utilisateur. En revanche, les informations d’index au niveau du locataire sont stockées dans un conteneur client isolé et protégé. Ce conteneur se trouve dans la région où se trouve le site SharePoint, qui peut être la région d’accueil ou une autre région spécifiée par l’administrateur du locataire. Pour les clients se trouvant dans la limite de données de l’Union européenne (EUDB), l’index est stocké dans un centre de données basé dans l’UE/AELE. Le traitement d’autres clients peut avoir lieu dans une région de locataire ou dans le États-Unis. Pour les organisations multigéographiques, toutes les limites géographiques sont respectées. Les données dans la région sont stockées et traitées dans chaque région.
Prise en charge de la clé client Microsoft Purview (BYOK)
Microsoft fournit la prise en charge byOK (Bring Your Own Key) pour les entreprises qui ont activé BYOK dans leur environnement. Microsoft active automatiquement l’indexation sémantique pour les clients compatibles BYOK sans aucune intervention administrative.
Protection des informations
Dans le contexte de la recherche, il n’existe aucune autre façon d’exclure des données de l’indexation sémantique à l’aide des fonctionnalités de protection des informations. L’indexation sémantique hérite des paramètres de sécurité et de confidentialité de Recherche Microsoft, et les données introduites à partir de connecteurs tiers sont fournies avec le même stockage et les mêmes protections que les autres données Microsoft 365. Pour les organisations qui étudient d’autres options de protection des informations, Microsoft 365 fournit des fonctionnalités intégrées dans les applications Microsoft 365. Des produits complémentaires sont également disponibles pour aider les administrateurs à protéger les données organisationnelles par le biais de la réduction des données et de la réduction du surpartage. Les sections suivantes décrivent les options disponibles pour les organisations à titre de référence uniquement.
Réduction des données
La réduction des données réduit la quantité de données disponibles à laquelle votre organization peut accéder. La conservation et la suppression de contenu sont souvent nécessaires pour la conformité et les exigences réglementaires, mais la suppression de contenu qui n’a plus de valeur métier vous aide également à gérer les risques et la responsabilité. Gestion du cycle de vie des données Microsoft Purview, qui est concédé sous licence séparément, peut être utilisé pour supprimer du contenu qui n’est plus nécessaire avec des stratégies de rétention pour la gestion à grande échelle, et des étiquettes de rétention pour les exceptions et le contrôle granulaire.
Réduire le surpartage
Les organisations ont depuis longtemps été en mesure de prendre des mesures pour réduire le surpartage dans Microsoft 365 à l’aide des contrôles existants dans le Centre d’administration Microsoft 365 et SharePoint Online. Il est important de noter que l’indexation des données ne modifie pas les autorisations d’accès au contenu et ne modifie pas les principes de la façon dont les utilisateurs doivent partager des informations avec leurs collègues. Par exemple, le partage de contenu avec un lien qui fonctionne avec tous les membres de mon organization ne fait pas partie de l’index au niveau du locataire. Seuls les utilisateurs qui sélectionnent un lien auquel ils ont accès auront les informations ajoutées à leur index utilisateur. Il est recommandé que les organisations prennent en compte les éléments suivants lors de l’exploration des options de protection des informations :
Planifier la collaboration de fichiers sécurisés : passez en revue Planifier et déployer une collaboration de fichiers pour en savoir plus sur les pratiques recommandées pour utiliser un environnement de collaboration de fichiers sécurisé et productif pour vos utilisateurs.
Taille appropriée de l’accès utilisateur aux données pour réduire la liste : réduisez le surpartage en héritant des listes d’exclusion pour les sites SharePoint Online et en effectuant des vérifications de contrôle d’accès en temps réel. Les organisations peuvent envisager d’utiliser le module complémentaire Syntex Gestion avancée de SharePoint pour gérer et régir ces autorisations.
Utiliser des étiquettes de confidentialité : une autre façon de réduire le surpartage du contenu consiste à utiliser Protection des données Microsoft Purview pour appliquer des étiquettes de confidentialité, qui vous permettent de classifier les données en fonction de leur sensibilité et d’appliquer des protections telles que le chiffrement et le marketing de contenu. Les étiquettes de confidentialité sont également incluses dans le découpage de recherche (c’est-à-dire, pris en charge pour le filtrage et les règles côté application utilisées pour le marquage visuel et les restrictions d’accès).
Limiter l’accès : Protection contre la perte de données Microsoft Purview est disponible dans Microsoft 365 E5 et peut être utilisé pour limiter rétroactivement et temporairement l’accès aux documents signalés comme étant surpartagés. Les organisations dont vous n’avez pas de licences Microsoft 365 E5 peuvent utiliser la version d’évaluation de 90 jours des solutions Microsoft Purview pour explorer comment des fonctionnalités supplémentaires de Purview peuvent vous aider à gérer vos besoins en matière de sécurité et de conformité des données.
Pour les clients désireux d’explorer comment déployer des solutions avancées de protection des informations, consultez l’article suivant qui explique comment déployer une solution de protection des informations avec Microsoft Purview. Pour plus d’informations sur la façon dont Microsoft Purview peut vous aider à renforcer vos exigences de sécurité et de conformité des données pour Microsoft 365 Copilot, consultez Protéger et gérer les interactions Microsoft 365 Copilot avec Microsoft Purview.
Ressources supplémentaires
Pour en savoir plus sur Microsoft 365 Copilot, case activée ces ressources :