Sesiones de depuración en Azure AI Search

Artículo
11/13/2024

Debug Sessions es un editor visual que funciona con un conjunto de aptitudes existente en Azure Portal, que expone la estructura y el contenido de un único documento enriquecido, tal como lo genera un indexador y un conjunto de aptitudes, durante la sesión. Dado que se está trabajando con un documento en directo, la sesión es interactiva: puedes identificar errores, modificar e invocar la ejecución de aptitudes y validar los resultados en tiempo real. Si los cambios resuelven el problema, puede confirmarlos en un conjunto de aptitudes publicado para aplicar las correcciones globalmente.

En este artículo se explican los escenarios admitidos y cómo se organiza el editor. Las pestañas y secciones del editor desempaquetan diferentes capas del conjunto de aptitudes para que pueda examinar la estructura, el flujo y el contenido que genera en tiempo de ejecución.

Escenarios admitidos

Use sesiones de depuración para investigar y resolver problemas con:

Aptitudes integradas que se usan para el enriquecimiento con IA, como OCR, análisis de imágenes, reconocimiento de entidades y extracción de palabras clave.
Aptitudes integradas usadas para la vectorización integrada, con fragmentación de datos a través de división de texto y vectorización a través de una aptitud de inserción.
Aptitudes personalizadas que se usan para integrar el procesamiento externo que proporcione.

Compare las siguientes imágenes de sesión de depuración para los dos primeros escenarios. En ambos escenarios, el área expuesta muestra la progresión de las aptitudes que generan o transforman contenido en ruta desde el documento de origen al índice de búsqueda. El flujo incluye opciones de asignación de índices y puede realizar un seguimiento de las flechas para seguir la pista de procesamiento. El panel de detalles a la derecha distingue el contexto. Muestra una representación del documento enriquecido o los detalles de una aptitud o asignación.

La primera imagen muestra un patrón para el enriquecimiento de IA aplicado. Las aptitudes se pueden ejecutar secuencialmente o en paralelo si no hay dependencias. Las asignaciones de campos de salida envían contenido enriquecido o generado de estructuras de datos en memoria a campos de un índice.

La segunda imagen muestra un patrón típico para la vectorización integrada. Las aptitudes para la vectorización integrada suelen incluir división de texto y una aptitud de inserción. Una aptitud de división de texto fragmenta un documento en páginas. Las aptitudes de inserción proporcionan vectorización. Las asignaciones de proyección controlan cómo se indexen los fragmentos de contenido. Este conjunto de aptitudes concreto omite el índice primario y crea un índice de contenido fragmentado, usando metadatos para identificar el origen del fragmento.

Limitaciones

Las sesiones de depuración funcionan con todos los orígenes de datos del indexador disponibles en general y con la mayoría de los orígenes de datos de versión preliminar, con las siguientes excepciones:

Indexador de SharePoint Online.
Indexador de Azure Cosmos DB for MongoDB.
En Azure Cosmos DB for NoSQL, si se produce un error en una fila durante la ejecución del indexado y no se encuentran metadatos correspondientes, es posible que la sesión de depuración no elija la fila correcta.
En el caso de la API de SQL de Azure Cosmos DB, si una colección con particiones anteriormente no tenía particiones, la sesión de depuración no encontrará el documento.
En el caso de las aptitudes personalizadas, no se admite una identidad administrada asignada por el usuario para una conexión de sesión de depuración a Azure Storage. Como se indica en los requisitos previos, puede usar una identidad administrada por el sistema o especificar una cadena de conexión de acceso completo que incluya una clave. Para más información, consulte Conexión de un servicio de búsqueda a otros recursos de Azure mediante una identidad administrada.
Actualmente, la capacidad de seleccionar el documento que se va a depurar no está disponible. Esta limitación no es permanente y desaparecerá pronto. En este momento, Debug Sessions selecciona el primer documento del contenedor o la carpeta de datos de origen.

Funcionamiento de una sesión de depuración

Al iniciar una sesión, el servicio de búsqueda crea una copia del conjunto de aptitudes, del indexador y de un origen de datos que contiene un único documento que se usa para probar el conjunto de aptitudes. Todo el estado de sesión se guarda en un nuevo contenedor de blobs creado por el servicio Azure AI Search en una cuenta de Azure Storage que proporciones. El nombre del contenedor generado tiene un prefijo de ms-az-cognitive-search-debugsession. El prefijo es necesario porque mitiga la posibilidad de exportar accidentalmente los datos de sesión a otro contenedor de la cuenta.

Se carga una copia en caché del documento enriquecido y del conjunto de aptitudes en el editor visual para que pueda inspeccionar el contenido y los metadatos del documento enriquecido, con la capacidad de comprobar cada nodo de documento y editar cualquier aspecto de la definición del conjunto de aptitudes. Los cambios realizados dentro de la sesión se almacenan en caché. Estos cambios no afectarán al conjunto de aptitudes publicado a menos que los confirme. Al confirmar los cambios, se sobrescribirá el conjunto de aptitudes de producción.

Si la canalización de enriquecimiento no tiene errores, se puede usar una sesión de depuración para enriquecer incrementalmente un documento, y probar y validar cada cambio antes de confirmarlo.

Diseño de la sesión de depuración

El editor visual se organiza en un área expuesta que muestra una progresión de las operaciones, empezando por el descifrado de documentos, seguido de aptitudes, asignaciones y un índice.

Seleccione cualquier aptitud o asignación y se abrirá un panel para mostrar información relevante.

Siga los vínculos para profundizar más en el procesamiento de aptitudes. Por ejemplo, en la captura de pantalla siguiente se muestra la salida de la primera iteración de la aptitud división de texto.

Panel de detalles de la aptitud

El panel Detalles de la aptitud tiene las secciones siguientes:

Iteraciones: muestra cuántas veces se ejecuta una aptitud. Puede comprobar las entradas y salidas de cada una.
Configuración de aptitudes: vea o edite la definición del conjunto de aptitudes JSON.
Errores y advertencias: muestra los errores o advertencias específicos de esta aptitud.

Panel de estructura de datos enriquecidos

El panel Estructura de datos enriquecidos se desliza hacia el lado al seleccionar el símbolo de flecha azul mostrar u ocultar. Es una representación legible de lo que contiene el documento enriquecido. Las capturas de pantalla anteriores de este artículo muestran ejemplos de la estructura de datos enriquecida.

Pasos siguientes

Ahora que comprende los elementos de las sesiones de depuración, inicie la primera sesión de depuración en un conjunto de aptitudes existente.

Depuración de un conjunto de aptitudes

Compartir vía