Conector de Microsoft Graph local de Sitios web empresariales
El conector de Microsoft Graph de sitios web empresariales locales permite a su organización indexar páginas web y contenido de sitios web propiedad de la empresa. Después de configurar el conector y el contenido de índice de los sitios web, los usuarios finales pueden buscar ese contenido en Microsoft Search y Microsoft 365 Copilot.
Este artículo está destinado a administradores de Microsoft 365 o a cualquier persona que configure, ejecute y supervise un conector de Microsoft Graph local de Enterprise Websites.
Capacidades
- Indexe páginas web desde sitios web hospedados en la nube privada o local.
- Indexe hasta 50 sitios web en una sola conexión.
- Excluir páginas web del rastreo mediante reglas de exclusión.
- Use la búsqueda semántica en Copilot para permitir que los usuarios encuentren contenido relevante.
Tipos de archivo admitidos
Extensión de archivo | Tipo de archivo | Descripción |
---|---|---|
Portable Document Format | ||
.Odt | Texto de OpenDocument | Documento de texto OpenDocument |
.Ods | Hoja de cálculo de OpenDocument | Hoja de cálculo de OpenDocument |
.odp | Presentación de OpenDocument | Presentación de OpenDocument |
.odg | Gráficos opendocument | Gráficos opendocument |
.xls | Excel (antiguo) | Hoja de cálculo de Excel (formato antiguo) |
.xlsx | Excel (nuevo) | Hoja de cálculo de Excel (nuevo formato) |
.ppt | PowerPoint (antiguo) | Presentación de PowerPoint (formato antiguo) |
.pptx | PowerPoint (nuevo) | Presentación de PowerPoint (nuevo formato) |
.doc | Word (antiguo) | Documento Word (formato antiguo) |
.docx | Word (nuevo) | documento Word (nuevo formato) |
.csv | CSV | valores de Comma-Separated |
.txt | Texto sin formato | Archivo de texto sin formato |
.xml | XML | Lenguaje de marcado extensible |
.Md | Markdown | Archivo Markdown |
.rtf | Formato de texto enriquecido | Formato de texto enriquecido |
.tsv | Valores separados por tabulaciones | valores de Tab-Separated |
Tipos MIME admitidos
Tipo MIME | Descripción |
---|---|
text/html | Lenguaje de marcado de hipertexto (HTML) que se usa para dar formato a la estructura de una página web. |
text/webviewhtml | Tipo MIME usado para el contenido web representado en controles WebView. |
text/x-server-parsed-html | Documentos HTML analizados por el servidor, que a menudo se usan para el lado servidor incluye (SSI). |
Limitaciones
- El conector no admite mecanismos de autenticación como SAML, token JWT, autenticación basada en Forms, etc.
Requisitos previos
- Debe ser el administrador de búsqueda del inquilino de Microsoft 365 de su organización.
- Instalar el agente del conector de Microsoft Graph: para acceder a los sitios web locales, debe instalar y configurar el agente del conector de Microsoft Graph. Descargue el instalador del agente y siga las instrucciones de instalación para configurarlo. Una vez instalado, asegúrese de que el agente está configurado correctamente para conectar los sitios web locales con el conector.
- Direcciones URL del sitio web: para conectarse al contenido del sitio web, necesita la dirección URL al sitio web. Puede indexar varios sitios web (hasta 50) en una sola conexión.
- Cuenta de servicio (opcional): solo se necesita una cuenta de servicio cuando los sitios web requieren autenticación. Los sitios web públicos no requieren autenticación y se pueden rastrear directamente. Para los sitios web que requieren autenticación, se recomienda tener una cuenta dedicada para autenticar y rastrear el contenido.
Introducción
1. Nombre para mostrar
Se usa un nombre para mostrar para identificar cada cita en Copilot, lo que ayuda a los usuarios a reconocer fácilmente el archivo o elemento asociado. El nombre para mostrar también significa contenido de confianza. El nombre para mostrar también se usa como filtro de origen de contenido. Hay un valor predeterminado para este campo, pero puede personalizarlo para un nombre que los usuarios de su organización reconozcan.
2. Direcciones URL del sitio web que se van a indexar
Especifique la raíz del sitio web que desea rastrear. El conector de Microsoft Graph local de Enterprise Websites usa esta dirección URL como punto de partida y sigue todos los vínculos de esta dirección URL para su rastreo. Puede indexar hasta 50 direcciones URL de sitio diferentes en una sola conexión. En el campo Direcciones URL, escriba las direcciones URL del sitio separadas por comas (,). Por ejemplo, https://www.contoso.com,https://www.contosoelectronics.com
.
Nota:
El conector siempre comienza a rastrearse desde la raíz de la dirección URL. Por ejemplo: si la dirección URL proporcionada es https://www.contoso.com/electronics
, el conector iniciará el rastreo desde https://www.contoso.com
.
El conector solo rastrea páginas web en el dominio de direcciones URL raíz y no admite el rastreo de direcciones URL fuera del dominio. El redireccionamiento solo se admite dentro del mismo dominio. Si hay redireccionamientos en las páginas web que se rastrearán, puede agregar la dirección URL redirigida directamente en la lista de direcciones URL que se rastrearán.
Uso de sitemap para rastrear
Cuando se selecciona, el conector solo rastrea las direcciones URL enumeradas en el mapa del sitio. Esta opción también permite configurar el rastreo incremental durante un paso posterior. Si no se selecciona o no se encuentra ningún mapa del sitio, el conector realiza un rastreo profundo de todos los vínculos que se encuentran en la dirección URL raíz del sitio.
Cuando se selecciona esta opción, el rastreador realiza los pasos siguientes:
a. El rastreador busca el archivo robots.txt en la ubicación raíz. Por ejemplo: si la dirección URL proporcionada es https://www.contoso.com
, el rastreador busca el archivo robots.txt en https://www.contoso.com/robots.txt
.
b. Al localizar el archivo robots.txt, el rastreador encuentra los vínculos de sitemap en el archivo robots.txt.
c. A continuación, el rastreador rastrea todas las páginas web como se muestra en los archivos de sitemap.
d. Si se produce un error en cualquiera de los pasos anteriores, el rastreador realiza un rastreo profundo del sitio web, sin generar ningún error.
3. Agente del conector de Graph
El agente del conector de Graph actúa como un puente entre la instancia del sitio web y las API del conector, lo que permite una transferencia de datos segura y eficaz. En este paso, seleccione la configuración del agente que desea usar para el conector.
Si aún no ha instalado el agente del conector de Microsoft Graph , puede descargar el instalador del agente y seguir las instrucciones de instalación para configurarlo. Una vez instalado, asegúrese de que el agente está configurado correctamente para conectar los sitios web locales con el conector.
4. Tipo de autenticación
El método de autenticación que elija se aplica a todos los sitios web que ha proporcionado para indexar en una conexión. Para autenticar y sincronizar contenido de sitios web, elija uno de los cinco métodos admitidos:
a.
Ninguna
Seleccione esta opción si los sitios web son accesibles públicamente sin ningún requisito de autenticación.
b.
Autenticación básica
Escriba el nombre de usuario y la contraseña de su cuenta para autenticarse mediante la autenticación básica.
c.
Windows
autenticación de Windows requiere un nombre de usuario, un dominio y una contraseña. Debe proporcionar el nombre de usuario y el dominio en el campo Nombre de usuario , en cualquiera de los siguientes formatos: domain\username o username@domain. Debe escribirse una contraseña en el campo Contraseña . Para autenticación de Windows, el nombre de usuario proporcionado también debe ser un administrador en el servidor donde está instalado el agente.
d.
SiteMinder
La autenticación de Siteminder requiere una dirección URL con formato correcto, https://custom_siteminder_hostname/smapi/rest/createsmsession
, un nombre de usuario y una contraseña.
e.
Microsoft Entra credenciales de cliente de OAuth 2.0
OAuth 2.0 con Microsoft Entra ID requiere un identificador de recurso, un identificador de cliente y un secreto de cliente.
El identificador de recurso, el identificador de cliente y los valores de secreto de cliente dependen de cómo se haya configurado la autenticación basada en Microsoft Entra ID para el sitio web. Una de las dos opciones especificadas podría ser adecuada para su sitio web:
Si usa una aplicación de Microsoft Entra como proveedor de identidades y la aplicación cliente para acceder al sitio web, el identificador de cliente y el identificador de recurso son el identificador de aplicación de esta única aplicación y el secreto de cliente es el secreto que generó en esta aplicación.
Nota:
Para obtener pasos detallados para configurar una aplicación cliente como proveedor de identidades, consulte Inicio rápido: Registro de una aplicación con el Plataforma de identidad de Microsoft y Configuración de la aplicación App Service o Azure Functions para usar Microsoft Entra inicio de sesión.
Una vez configurada la aplicación cliente, asegúrese de crear un nuevo secreto de cliente en la sección Certificados & secretos de la aplicación. Copie el valor del secreto de cliente que se muestra en la página porque no se muestra de nuevo.
En las capturas de pantalla siguientes, puede ver los pasos para obtener el identificador de cliente y el secreto de cliente, y configurar la aplicación si está creando la aplicación por su cuenta.
Vista de la configuración en la sección personalización de marca:
Vista de la configuración en la sección de autenticación:
Nota:
No es necesario tener la ruta especificada anteriormente para el URI de redirección en el sitio web. Solo si usa el token de usuario enviado por Azure en el sitio web para la autenticación, tendrá que tener la ruta.
Vista del identificador de cliente en la sección Essentials:
Vista del secreto de cliente en la sección Certificados & secretos :
Si usa una aplicación (primera aplicación) como proveedor de identidades para el sitio web como recurso y una aplicación diferente (segunda aplicación) para acceder al sitio web, el identificador de cliente es el identificador de aplicación de la segunda aplicación y el secreto de cliente es el secreto configurado en la segunda aplicación. Sin embargo, el identificador de recurso es el identificador de la primera aplicación.
Nota:
Para conocer los pasos para configurar una aplicación cliente como proveedor de identidades, consulte Inicio rápido: Registro de una aplicación con el Plataforma de identidad de Microsoft y Configuración de la aplicación App Service o Azure Functions para usar Microsoft Entra inicio de sesión.
No es necesario configurar un secreto de cliente en esta aplicación, pero debe agregar un rol de aplicación en la sección Roles de aplicación, que se asignará más adelante a la aplicación cliente. Consulte las imágenes para ver cómo agregar un rol de aplicación.
Creación de un nuevo rol de aplicación:
Edición del nuevo rol de aplicación:
Después de configurar la aplicación de recursos, cree la aplicación cliente y asígnele permiso para acceder a la aplicación de recursos agregando el rol de aplicación configurado anteriormente en los permisos de API de la aplicación cliente.
Nota:
Para ver cómo conceder permisos a la aplicación cliente, consulte Inicio rápido: Configuración de una aplicación cliente para acceder a una API web.
En las capturas de pantalla siguientes se muestra la sección para conceder permisos a la aplicación cliente.
Agregar un permiso:
Selección de los permisos:
Agregar los permisos:
Una vez asignados los permisos, debe crear un nuevo secreto de cliente para esta aplicación yendo a la sección Certificados & secretos. Copie el valor del secreto de cliente que se muestra en la página, ya que no se muestra de nuevo. Use el identificador de aplicación de esta aplicación como el identificador de cliente, el secreto de esta aplicación como secreto de cliente y el identificador de aplicación de la primera aplicación como identificador de recurso.
4. Lanzamiento a audiencia limitada
Implemente esta conexión en una base de usuarios limitada si desea validarla en Copilot y en otras superficies de búsqueda antes de expandir el lanzamiento a una audiencia más amplia. Para obtener más información sobre el lanzamiento limitado, consulte Lanzamiento preconfigurado.
En este momento, está listo para crear la conexión para los sitios web locales. Puede hacer clic en Crear para publicar las páginas web de conexión e índice desde sus sitios web.
Para otras configuraciones, como permisos de acceso, reglas de inclusión de datos, esquema, frecuencia de rastreo, etc., tenemos valores predeterminados basados en lo que funciona mejor con los sitios web. Puede ver los valores predeterminados siguientes:
Usuarios | Descripción |
---|---|
Permisos de acceso | Todos los usuarios de la organización verán este contenido |
Contenido | Descripción |
---|---|
Direcciones URL que se van a excluir | Ninguna |
Administrar propiedades | Para comprobar las propiedades predeterminadas y su esquema, consulte el contenido. |
Sincronizar | Descripción |
---|---|
Rastreo incremental | Frecuencia: cada 15 minutos (solo se admite con el rastreo de sitemaps) |
Rastreo completo | Frecuencia: todos los días |
Si desea editar cualquiera de estos valores, debe elegir la opción "Configuración personalizada".
Configuración personalizada
La configuración personalizada es para aquellos administradores que quieren editar los valores predeterminados de la configuración enumerada en la tabla anterior. Una vez que haga clic en la opción "Configuración personalizada", verá tres pestañas más: Usuarios, Contenido y Sincronización.
Usuarios
Permisos de acceso
El conector local de Enterprise Websites admite permisos de búsqueda visibles solo para todos los usuarios . Los datos indexados aparecen en los resultados de búsqueda de todos los usuarios de la organización.
Contenido
Agregar direcciones URL para excluir (restricciones de rastreo opcionales)
Hay dos maneras de evitar que las páginas se rastreen: no permitirlas en el archivo robots.txt o agregarlas a la lista exclusión.
Compatibilidad con robots.txt
El conector comprueba si hay un archivo robots.txt para el sitio raíz. Si existe, sigue y respeta las instrucciones que se encuentran en ese archivo. Si no desea que el conector rastree determinadas páginas o directorios del sitio, incluya las páginas o directorios en las declaraciones "No permitir" en el archivo robots.txt.
Agregar direcciones URL para excluir
Opcionalmente, puede crear una lista de exclusión para excluir que algunas direcciones URL se rastreen si ese contenido es confidencial o no merece la pena rastrearlo. Para crear una lista de exclusión, examine la dirección URL raíz. Puede agregar las direcciones URL excluidas a la lista durante el proceso de configuración.
Configuración dinámica del sitio
Si el sitio web contiene contenido dinámico, por ejemplo, páginas web que residen en sistemas de administración de contenido como Confluence o Unily, puede habilitar un rastreador dinámico. Para activarlo, seleccione Habilitar rastreo para sitios dinámicos. El rastreador espera a que el contenido dinámico se represente antes de que comience a rastrearse.
Además de la casilla, hay tres campos opcionales disponibles:
- Listo para DOM: escriba el elemento DOM que el rastreador debe usar como señal de que el contenido está totalmente representado y que debe comenzar el rastreo.
- Encabezados que se van a agregar: especifique qué encabezados HTTP debe incluir el rastreador al enviar esa dirección URL web específica. Puede establecer varios encabezados para diferentes sitios web. Se recomienda incluir valores de token de autenticación.
- Encabezados que se van a omitir: especifique los encabezados innecesarios que se deben excluir de las solicitudes de rastreo dinámico.
Los encabezados se deben agregar en la sintaxis siguiente: {"Root-URL":["TKey=TValue"]}
Ejemplo: {"https://www.contoso.com":["Token=Value","Type=Value2"]}
Administrar propiedades
Aquí, puede agregar o quitar propiedades disponibles de los sitios web, asignar un esquema a la propiedad (definir si una propiedad se puede buscar, consultar, recuperar o refinar), cambiar la etiqueta semántica y agregar un alias a la propiedad. Las propiedades seleccionadas de forma predeterminada se enumeran a continuación.
Source (propiedad) | Etiqueta | Descripción | Esquema |
---|---|---|---|
Autores | Autores | Personas que participaron en el elemento en el origen de datos | Consulta, recuperación |
Contenido | Contenido | Todo el contenido de texto de una página web | Búsqueda |
CreatedDateTime | Fecha y hora de creación | Datos y hora en que se creó el elemento en el origen de datos | Consulta, recuperación |
Descripción | Recuperar, buscar | ||
FileType | Extensión de archivo | La extensión de archivo del contenido rastreado | Consulta, refinación y recuperación |
IconURL | IconUrl | Dirección URL del icono de la página web | Recuperar |
LastModifiedBy | Última modificación | Persona que modificó por última vez el elemento en el origen de datos | Consulta, recuperación |
LastModifiedDateTime | Fecha de la última modificación | Fecha y hora en que el elemento se modificó por última vez en el origen de datos. | Consulta, recuperación |
Título | Título | El título del elemento que desea que se muestre en Copilot y otras experiencias de búsqueda | Recuperar, buscar |
URL | url | La dirección URL objetivo del elemento en el origen de datos | Recuperar |
El conector local del sitio web de empresa admite dos tipos de propiedades de origen:
Etiqueta meta
El conector captura las metaetiquetas que las direcciones URL raíz pueden tener y las muestra. Puede seleccionar qué etiquetas incluir para el rastreo. Una etiqueta seleccionada se indexa para todas las direcciones URL proporcionadas, si está disponible.
Las metaetiquetas seleccionadas se pueden usar para crear propiedades personalizadas. Además, en la página de esquema, puede administrarlos aún más (Consultable, Searchable, Recuperable, Refinable).
Configuración de propiedades personalizadas
Para enriquecer los datos indexados, cree propiedades personalizadas para las metaetiquetas seleccionadas o las propiedades predeterminadas del conector.
Para agregar una propiedad personalizada:
- Escriba un nombre de propiedad. Este nombre aparece en los resultados de búsqueda de este conector.
- Para el valor, seleccione Static o String/Regex Mapping (Asignación estática o string/regex). Se incluye un valor estático en todos los resultados de búsqueda de este conector. Un valor de cadena o expresión regular varía en función de las reglas que agregue.
- Si seleccionó un valor estático, escriba el valor que desea que aparezca.
- Si seleccionó un valor string/rRegex:
- En la sección Agregar expresiones , en la lista Propiedad , seleccione una propiedad o metaetiqueta predeterminada de la lista. En Valor de ejemplo, escriba una cadena para representar el tipo de valores que podrían aparecer. Este ejemplo se usa al obtener una vista previa de la regla. En Expresión, escriba una expresión regex para definir la parte del valor de propiedad que debe aparecer en los resultados de la búsqueda. Puede agregar hasta tres expresiones.
- En la sección Crear fórmula , escriba una fórmula para combinar los valores extraídos de las expresiones.
Para obtener más información sobre las expresiones regex, consulte expresiones regulares de .NET o busque en la web una guía de referencia de expresiones regex.
Sincronizar
El intervalo de actualización determina la frecuencia con la que se sincronizan los datos entre el origen de datos y el índice del conector de Graph. Hay dos tipos de intervalos de actualización: rastreo completo y rastreo incremental. Para obtener más información, vea Actualizar configuración.
Puede cambiar los valores predeterminados del intervalo de actualización desde aquí si lo desea.
Nota:
El rastreo incremental solo se admite cuando se selecciona la opción de rastreo de sitemap.
Solución de problemas
Después de publicar la conexión, puede revisar el estado en la pestaña Orígenes de datos del centro de administración. Para obtener información sobre cómo realizar actualizaciones y eliminaciones, consulte Administración del conector. Puede encontrar pasos de solución de problemas para los problemas más vistos aquí.
Si tiene problemas o quiere proporcionar comentarios, póngase en contacto con Microsoft Graph | Soporte técnico.