Compartir a través de


Índice semántico para Copilot

El índice semántico se genera a partir del contenido de Microsoft Graph. Se usa para ayudar en la producción de respuestas contextualmente relevantes a las consultas del usuario. Permite a las organizaciones buscar miles de millones de vectores (representaciones matemáticas de características o atributos) y devolver resultados relacionados. Combinado con mejoras en Microsoft Graph, el índice semántico le conecta con información relevante de su organización. Se basa en el enfoque integral de Microsoft para la seguridad, el cumplimiento, la privacidad y respeta todos los límites de la organización dentro de su inquilino.

¿Qué es un índice?

El concepto de indexación de datos está bien establecido en Microsoft 365. La indexación es una de las formas importantes de que los servicios de Microsoft 365 accedan a la enorme cantidad de datos en Microsoft Graph, donde reside el inquilino de Microsoft 365. Con la indexación, los usuarios ven los resultados de búsqueda de Microsoft Graph, incluidos el contenido y las señales de la mayoría de las aplicaciones de Microsoft 365 del inquilino. Esto garantiza que los resultados de la búsqueda sean personalizados y elevados en función de las conexiones entre el contenido y las personas de la red.

Las interacciones con los datos de Microsoft Graph se basan en la coincidencia de palabras clave, la personalización y la coincidencia social. Consultas de búsqueda de palabras clave en un índice de Microsoft Graph, que se asigna a ubicaciones de documentos o a un conjunto de documentos. Microsoft 365 usa Microsoft Graph para clasificar el contenido más relevante en función de su conocimiento de señales adicionales para los usuarios y su red cercana. Esto se conoce como personalización y coincidencia social en Microsoft 365, lo que impulsa la relevancia de las consultas en el contenido de la organización. El acceso a los datos de inquilino de Microsoft Graph se controla mediante el control de acceso basado en rol. Las organizaciones siempre controlan las funcionalidades de Búsqueda de Microsoft a través del portal de búsqueda e inteligencia de la Centro de administración de Microsoft 365.

Cómo el índice semántico ayuda a administrar los datos

El índice semántico mejora la experiencia de Microsoft 365 Copilot tanto en Business Chat como en las aplicaciones de Microsoft 365. Admite una base de contenido mejorada y una comprensión conceptual de los datos en línea que Microsoft habilita automáticamente. Para ello, crea índices vectorizados. Un vector es una representación numérica de una palabra, un píxel de imagen u otro punto de datos. El vector se organiza o asigna con números cercanos situados cerca entre sí para representar similitud. Los vectores se almacenan en espacios multidimensionales donde puntos de datos semánticamente similares se agrupan en clúster en el espacio vectorial, lo que permite a Microsoft 365 controlar un conjunto más amplio de consultas de búsqueda más allá de la "coincidencia exacta".

En términos prácticos, esto significa que los servicios de Microsoft 365, como Microsoft 365 Copilot, pueden:

  • Comprender las relaciones entre diferentes formas de palabras (por ejemplo, tecnología, tecnología, tecnología; USA, U.S.A, Estados Unidos, Estados Unidos de América; perro, gato, mascota).
  • Capture sinónimos para expandir la cantidad de información que se puede buscar, incluida la intención de oraciones, fragmentos de código, documentos y reuniones.
  • Identifique los recursos relacionados con su consulta o contenido de ejemplo.

En el gráfico siguiente se usa texto (en lugar de números utilizados por índices vectorizados) para mostrar un ejemplo de similitud entre puntos de datos:

Gráfico que muestra un ejemplo de cómo se agrupan los puntos de datos para el índice semántico.

El índice semántico proporciona una búsqueda de similitud rápida y precisa y la recuperación de datos en función de su distancia o similitud vectorial. Esto significa que, además de usar métodos léxicos tradicionales para realizar consultas basadas en coincidencias exactas o criterios predefinidos, el índice semántico puede encontrar los datos más similares o pertinentes en función del significado semántico o contextual.

Características

Las siguientes características de índice semántico hacen más que mejorar los resultados de la búsqueda; trabajan juntos para ayudarle a comprender los datos, encontrar información más rápidamente y mejorar su productividad. Los usuarios pueden interactuar con el índice semántico inicialmente mediante Microsoft 365 Copilot integración. Generamos un índice semántico para los usuarios con una licencia de Microsoft 365 Copilot de pago. Estos son los detalles de cómo funciona cada característica.

Microsoft Copilot con chat basado en Graph

El índice semántico ayuda a exponer los resultados dentro de Microsoft Copilot con el chat basado en Graph al comprender la intención de la consulta y anexar información adicional al símbolo del sistema de Microsoft Copilot. La información pertinente se obtiene en Microsoft Graph y el índice semántico para proporcionar al modelo de lenguaje grande (LLM) más información para razonar. Por ejemplo, supongamos que desea que Microsoft Copilot busque un correo electrónico en el que un compañero haya alabado el trabajo de diseño de un proveedor. El índice semántico incluye palabras cercanas (por ejemplo, eutrógidas, excitadas, sorprendida) en la búsqueda para ampliar el área de búsqueda y dar el mejor resultado. Todo este trabajo tiene lugar en segundo plano para agregar relevancia a los resultados que se buscan con Microsoft Copilot, sin agregar complejidad.

Funcionamiento del índice semántico

El índice semántico mejora Microsoft Copilot y los resultados de búsqueda en la aplicación de Microsoft 365, SharePoint Online y Microsoft Teams. Admite una experiencia de búsqueda mejorada y una comprensión conceptual de los datos en línea habilitados automáticamente por Microsoft.

En la actualidad, el índice semántico se crea en el nivel de inquilino. Es un índice de toda la organización generado a partir de archivos de SharePoint Online basados en texto a los que pueden acceder dos o más personas a través de la herencia del sitio. Sin embargo, solo muestra los resultados a un usuario si el usuario ya tiene acceso al contenido controlado por el control de acceso basado en rol. Además, el sitio de SharePoint Online debe seguir siendo de búsqueda. Con el tiempo, también generaremos contenido de índice de nivel de usuario. Esto agrega un índice personalizado de un conjunto de datos de trabajo accesible para los usuarios que realizan tareas diarias. Esto incluye cualquier contenido basado en texto con el que realice o interactúe, como correos electrónicos, documentos que le mencionen o que comente o comparta.

En la sección siguiente se explica cómo habilitar cada índice, cómo el flujo de datos de Microsoft 365 Copilot usa el índice semántico, qué tipos de archivo puede controlar cada índice y cómo se ocupa cada índice de las actualizaciones.

Activación

Cada Microsoft 365 Copilot cliente ahora tiene un índice semántico de nivel de inquilino. El proceso de indexación no requiere ninguna intervención administrativa.

Flujos de datos

El índice semántico interactúa con Microsoft Graph para proporcionar a los usuarios acceso a la información del índice. En el diagrama siguiente se muestra cómo funciona el flujo de datos para una solicitud mediante Microsoft 365 Copilot.

Captura de pantalla que muestra la relación entre Microsoft 365 Copilot, Aplicaciones Microsoft 365, Microsoft Graph y Modelo de lenguaje grande.

Las solicitudes de usuario de las aplicaciones de Microsoft 365 se envían a Copilot (1) y Copilot accede a Microsoft Graph y al índice semántico para su procesamiento (2). Copilot envía el símbolo del sistema modificado al modelo de lenguaje grande (3), recibe la respuesta LLM (4) y, a continuación, accede a Microsoft Graph y al índice semántico para el procesamiento posterior (5). Copilot vuelve a enviar la respuesta y el comando de la aplicación a las aplicaciones de Microsoft 365. Todas las solicitudes se cifran mediante HTTPS y los datos del cliente permanecen cifrados en reposo.

Tipos de contenido compatibles

El índice semántico admite la indexación de los tipos de archivo y buzón de usuario enumerados en la tabla siguiente, con más tipos de archivo admitidos con el tiempo. En la tabla se incluye una lista de tipos de archivo admitidos para el índice de nivel de usuario y el índice de nivel de inquilino.

Tipo de archivo o contenido Nivel de usuario Nivel de inquilino
Buzón de usuario Compatible No aplicable
Buzón delegado No compatible No aplicable
Buzón compartido No compatible No aplicable
Datos de buzón archivados No compatible No aplicable
Datos de SharePoint archivados No compatible No se admite
Word documentos (doc/docx) Compatible Compatible
PowerPoint (pptx) Compatible Compatible
archivos PDF Compatible Compatible
Páginas web (aspx) Compatible Compatible
Archivos de OneNote (uno) Compatible Compatible
Datos del conector de Graph No aplicable Compatible

Nota:

Ahora se admiten archivos de hasta 512 MB para las extensiones PDF, PPTX y DOCX. Esta mejora permite a los usuarios de Copilot analizar, resumir y generar información de forma eficaz a partir de estos archivos grandes.

Actualizaciones de índices

Cuando el índice semántico completa la indexación de un cliente por primera vez, los documentos creados por los usuarios se indizan casi en tiempo real en el buzón del usuario. Los nuevos documentos que se agregan a sitios de SharePoint Online a los que dos o más usuarios pueden acceder, a través de la herencia de sitios, se indexa diariamente. Cuando se actualiza un documento de nivel de inquilino y usuario indexado, los cambios se indexa inmediatamente.

Administración

Proporcionamos a los administradores actividades opcionales para preparar y administrar el índice semántico mediante el Centro de administración de Microsoft 365. No se requiere ninguna intervención administrativa para habilitar el índice semántico, ya que Microsoft habilita automáticamente el servicio. El índice semántico es una mejora en la búsqueda de Microsoft 365 y no se puede deshabilitar.

Los administradores pueden optar por preparar y administrar el índice semántico revisando las consideraciones para planear e implementar una colaboración de archivos en SharePoint y compartir permisos en la experiencia moderna de SharePoint. Los administradores pueden optar por excluir archivos del índice semántico revisando las consideraciones para excluir datos con Prevención de pérdida de datos de Microsoft Purview (DLP). Si una solución DLP no está presente, los administradores pueden excluir sitios de SharePoint Online del índice de nivel de inquilino.

Excluir sitios de SharePoint Online

Hay ocasiones en las que es posible que las organizaciones sin Prevención de pérdida de datos de Microsoft Purview quieran excluir un sitio de SharePoint Online de que microsoft Search indexe sus datos. Estos pasos solo deben tenerse en cuenta para datos confidenciales, como nóminas, recursos humanos o información financiera. Para excluir un sitio de SharePoint Online, siga estos pasos:

  1. Vaya al sitio con los permisos de administrador adecuados.

  2. Seleccione Configuración y, a continuación, Información del sitio en el menú desplegable.

  3. Seleccione Ver toda la configuración del sitio para abrir la página Configuración del sitio.

  4. Seleccione Buscar y disponibilidad sin conexión en la categoría Búsqueda y seleccione No para Permitir que este sitio aparezca en los resultados de la búsqueda para excluirlo de La búsqueda de Microsoft y de la búsqueda de índice semántico. Esto también se puede realizar con PowerShell para varios sitios.

    Captura de pantalla que muestra la configuración para excluir sitios en línea de SharePoint.

    Microsoft Search y el índice semántico admiten la exclusión del contenido en línea de SharePoint solo del índice de nivel de inquilino. No hay ninguna opción para excluir solo los resultados de La búsqueda de Microsoft o el índice semántico; las acciones se aplican a ambos al mismo tiempo.

Configuración de conclusiones de elementos

En la página Búsqueda e inteligencia de la Centro de administración de Microsoft 365, las conclusiones de elementos están habilitadas de forma predeterminada. Al desactivar la información de personas o elementos, se reduce la experiencia de búsqueda de Microsoft y el índice semántico, ya que los resultados no incluirán personas relevantes que se habrían derivado de grupos de distribución o del organigrama.

  • Personas información proporciona una lista de personas relevantes para un usuario en función de su trabajo de colaboración pública en Microsoft 365. La colaboración pública incluye miembros de un grupo de distribución público y personas conectadas en el organigrama.

  • Las conclusiones de elementos permiten recomendaciones para los usuarios de su organización en función de su trabajo colaborativo en Microsoft 365. Estas recomendaciones pueden incluir, entre otros, documentos u otros tipos de contenido y mostrarse en tarjetas de personas (contactos), Delve, la aplicación Microsoft 365, Microsoft Copilot resultados y otras ubicaciones.

Tanto item insights como Personas insights no cubren las características de personalización basadas en los propios datos de un usuario.

Incorporación de información de terceros

Con los conectores de Copilot, las organizaciones pueden incorporar datos de la organización o contenido de orígenes externos a Microsoft Graph, donde luego se incluyen en el índice semántico. Microsoft indexa todos los datos de los conectores de Graph mientras mantiene los controles de acceso para el contenido. Esto expande los tipos de orígenes de contenido que se pueden buscar en las aplicaciones de productividad de Microsoft 365 y en el ecosistema de Microsoft más amplio, y funciona mejor cuando el contenido del conector es enriquecido con texto. Los datos de terceros se pueden hospedar de forma local o en las nubes públicas o privadas, y esta información la consume Microsoft Graph, que se puede ingerir en el índice semántico para ayudar a proporcionar a su organización todo el contexto en Microsoft 365 y el contenido de terceros de su organización. Obtenga más información sobre los requisitos de licencia del conector de grafos para Microsoft 365 Enterprise y Microsoft 365 Copilot en Requisitos de licencia y precios.

Privacidad, cumplimiento y seguridad

El modelo de permisos dentro del inquilino de Microsoft 365 puede ayudar a garantizar que los datos no se filtren involuntariamente entre usuarios, grupos e inquilinos. El índice semántico solo presenta datos a los que cada individuo puede acceder mediante los mismos controles subyacentes para el acceso a los datos que se usan en otros servicios de Microsoft 365. El índice semántico respeta el límite de acceso basado en la identidad del usuario para que el proceso de puesta en tierra solo acceda al contenido al que el usuario actual está autorizado a acceder. Para obtener más información, consulte la documentación de servicios y directivas de privacidad de Microsoft.

Microsoft 365 Copilot cumple con nuestros compromisos de privacidad, seguridad y cumplimiento con los clientes comerciales de Microsoft 365 que se incluyen en el Reglamento general de protección de datos (RGPD) y en Límite de datos de la Unión Europea (UE). Consultas, las respuestas y los datos a los que se accede a través del índice semántico no se usan para entrenar los LLM básicos, incluidos los usados por Microsoft 365 Copilot. Para obtener más información, consulte Datos, privacidad y seguridad para Microsoft 365 Copilot.

Almacenamiento y procesamiento

Los datos generados por el índice semántico permanecen dentro del inquilino de la empresa y cumplen con sus directivas y procesos de seguridad, cumplimiento, identidad y privacidad. El índice semántico solo funciona con el contenido al que los usuarios ya tienen permiso y no afecta a las cuotas de almacenamiento.

La información de índice de nivel de usuario se almacena donde se encuentra el buzón del usuario. Por otro lado, la información de índice de nivel de inquilino se almacena en un contenedor de inquilinos de un cliente aislado y protegido. Este contenedor se encuentra en la región donde se encuentra el sitio de SharePoint, que puede ser la región Inicio u otra región especificada por el administrador del inquilino. Para los clientes dentro del límite de datos de la Unión Europea (EUDB), el índice se almacena en un centro de datos basado en la UE/EFTA. El procesamiento de otros clientes puede tener lugar en una región de inquilino o en el Estados Unidos. En el caso de las organizaciones multigeográficas, se respetan todos los límites geográficos. Los datos de la región se almacenan y procesan en cada región.

Soporte técnico de La clave de cliente de Microsoft Purview (BYOK)

El índice semántico proporciona compatibilidad con bring your own key (BYOK) para las empresas que han habilitado BYOK en su entorno. Microsoft habilita automáticamente el índice semántico para los clientes habilitados para BYOK sin intervención administrativa.

Protección de la información

En el contexto de la búsqueda, no hay otras maneras de excluir datos del índice semántico mediante funcionalidades de protección de la información. El índice semántico hereda la configuración de seguridad y privacidad de Microsoft Search, y los datos que se incluyen desde conectores de terceros se proporcionan el mismo almacenamiento y protecciones que otros datos de Microsoft 365. Para las organizaciones que investigan opciones adicionales de protección de la información, Microsoft 365 proporciona funcionalidades integradas en aplicaciones de Microsoft 365. Los productos de complemento también están disponibles para ayudar a los administradores a proteger los datos de la organización mediante la minimización de datos y la reducción del uso compartido excesivo. En las secciones siguientes se describen las opciones disponibles para las organizaciones solo como referencia.

Minimización de datos

La minimización de datos reduce la cantidad de datos disponibles a los que puede acceder su organización. La retención y eliminación de contenido suele ser necesaria para los requisitos normativos y de cumplimiento, pero la eliminación de contenido que ya no tiene valor empresarial también le ayuda a administrar el riesgo y la responsabilidad. Administración del ciclo de vida de Microsoft Purview, que tiene licencia por separado, se puede usar para eliminar contenido que ya no es necesario con directivas de retención para la administración a escala y etiquetas de retención para excepciones y control granular.

Reducir el uso compartido excesivo

Las organizaciones han podido tomar medidas durante mucho tiempo para reducir el uso compartido excesivo en Microsoft 365 mediante controles existentes en la Centro de administración de Microsoft 365 y SharePoint Online. Es importante tener en cuenta que el índice semántico no cambia los permisos de acceso al contenido y no cambia los principios de cómo los usuarios deben compartir información con compañeros. Por ejemplo, el índice semántico no hace que el contenido se comparta con un vínculo que funcione con todos los usuarios de mi organización como parte del índice de nivel de inquilino. Solo los usuarios que seleccionen un vínculo al que tengan acceso tendrán la información agregada a su índice de usuario. Se recomienda que las organizaciones consideren lo siguiente al explorar las opciones de protección de la información:

  • Planear la colaboración segura de archivos : revise el plan e implemente una colaboración de archivos para comprender mejor las prácticas recomendadas para operar un entorno de colaboración de archivos seguro y productivo para los usuarios.

  • Acceso de usuario de tamaño correcto a los datos para reducir la lista : reduzca el uso compartido excesivo heredando listas de exclusión para sitios de SharePoint Online y realizando comprobaciones de control de acceso en tiempo real. Las organizaciones pueden considerar el uso del complemento Administración avanzada de SharePoint de Syntex para administrar y controlar estos permisos.

  • Usar etiquetas de confidencialidad: otra manera de reducir el uso compartido de contenido es usar Microsoft Purview Information Protection para aplicar etiquetas de confidencialidad, lo que le permite clasificar los datos en función de su confidencialidad y aplicar protecciones como el cifrado y el marketing de contenido. Las etiquetas de confidencialidad también se incluyen en el recorte de búsqueda (es decir, se admiten para el filtrado y las reglas del lado de la aplicación que se usan para el marcado visual y las restricciones de acceso).

  • Limitar el acceso: Prevención de pérdida de datos de Microsoft Purview está disponible en Microsoft 365 E5 y se puede usar para limitar de forma retroactiva y temporal el acceso a los documentos que se han notificado como sobresaltos. Las organizaciones que no tienen licencias de Microsoft 365 E5 pueden usar la prueba de soluciones de Microsoft Purview de 90 días para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a administrar las necesidades de cumplimiento y seguridad de los datos.

Para los clientes interesados en explorar cómo implementar soluciones avanzadas de protección de la información, revise el artículo siguiente en el que se explica cómo implementar una solución de protección de la información con Microsoft Purview. Para obtener más información sobre cómo Microsoft Purview puede ayudarle a reforzar los requisitos de cumplimiento y seguridad de datos para Microsoft 365 Copilot, consulte Protección y administración de interacciones Microsoft 365 Copilot con Microsoft Purview.

Recursos adicionales

Microsoft 365, Microsoft Graph y el índice semántico permiten una expresividad sin precedentes para la búsqueda, el chat y los copilotos que aprovechan los datos de Microsoft 365. Esta expresividad ayuda a exponer los datos de puesta a tierra adecuados para sacar el máximo partido a los datos de la organización con Microsoft 365 y Microsoft 365 Copilot.

Para más información sobre Microsoft 365 Copilot, consulte estos recursos: