Compartir vía


Inicio rápido: Creación de un conjunto de aptitudes en Azure Portal

En este inicio rápido, aprenderá cómo un conjunto de aptitudes de Azure AI Search agrega reconocimiento óptico de caracteres (OCR), análisis de imágenes, detección de idioma, traducción de texto y reconocimiento de entidades para generar contenido que se puede buscar texto en un índice de búsqueda.

Puede ejecutar el asistente Importar datos en el Azure Portal para aplicar habilidades que crean y transforman contenido textual durante la indexación. La entrada está constituida por los datos sin procesar, normalmente blobs de Azure Storage. La salida es un índice que permite búsquedas que contiene texto, títulos y entidades de imagen generados por IA. El contenido generado se puede consultar en Azure Portal mediante Explorador de búsqueda.

Para prepararse, se crean algunos recursos y se cargan archivos de muestra antes de ejecutar el asistente.

Requisitos previos

Nota:

En este inicio rápido, se usan los servicios de Azure AI para las transformaciones de IA. Debido a que la carga de trabajo es tan pequeña, los servicios de Azure AI se usan en segundo plano para el procesamiento gratuito de hasta 20 transacciones. Puede completar este ejercicio sin tener que crear un recurso de varios servicios de Azure AI.

Configuración de los datos

En los pasos siguientes, configure un contenedor de blobs en Azure Storage para almacenar archivos de contenido heterogéneo.

  1. Descargue los datos de ejemplo que están formados por un pequeño conjunto de archivos de diferentes tipos.

  2. Inicie sesión en Azure Portal con su cuenta de Azure.

  3. Cree una cuenta de Azure Storage o busque una cuenta existente.

    • Para evitar cargos por el ancho de banda, elija la misma región que Azure AI Search.

    • Elija el tipo de cuenta StorageV2 (de uso general V2).

  4. En Azure Portal, abra la página Azure Storage y cree un contenedor. Puede usar el nivel de acceso predeterminado.

  5. En el contenedor, seleccione Cargar para cargar los archivos de ejemplo. Tenga en cuenta que dispone de una amplia gama de tipos de contenido, como imágenes y archivos de aplicación, en los que no se pueden realizar búsquedas de texto completo en sus formatos nativos.

    Captura de pantalla de los archivos de origen en Azure Blob Storage.

Ahora ya está preparado para continuar con el Asistente para la importación de datos.

Ejecutar el Asistente para la importación de datos

  1. Inicie sesión en Azure Portal con su cuenta de Azure.

  2. Búsqueda del servicio de búsqueda. En la página Información general, seleccione Importar datos en la barra de comandos para crear contenido que se puede buscar en cuatro pasos.

    Captura de pantalla del comando para importar datos.

Paso 1: Creación de un origen de datos

  1. En Conectarse a los datos propios, seleccione Azure Blob Storage.

  2. Elija una conexión existente con la cuenta de almacenamiento y seleccione el contenedor que ha creado. Asigne un nombre al origen de datos y use los valores predeterminados para el resto.

    Captura de pantalla de la página de definición del origen de datos.

    Continúe en la siguiente página.

Si obtiene Error al detectar el esquema de índice del origen de datos, el indexador que activa el asistente no se puede conectar al origen de datos. Lo más probable es que el origen de datos tenga protecciones de seguridad. Pruebe las siguientes soluciones y vuelva a ejecutar el asistente.

Característica de seguridad Solución
El recurso requiere roles de Azure o sus claves de acceso están deshabilitadas Conectar como servicio de confianza o conectar mediante una identidad administrada
El recurso está detrás de un firewall de IP Creación de una regla de entrada para Buscar y para azure Portal
El recurso requiere una conexión de punto de conexión privado Conexión a un punto de conexión privado

Paso 2: agregar conocimientos cognitivos

Después, configure el enriquecimiento de inteligencia artificial para invocar a OCR, el análisis de imágenes y el procesamiento de lenguaje natural.

El análisis de imágenes y OCR están disponibles para blobs en Azure Blob Storage y Azure Data Lake Storage (ADLS) Gen2 y para el contenido de imagen en OneLake. Las imágenes pueden ser archivos independientes o imágenes incrustadas en un PDF u otros archivos.

  1. En este inicio rápido, se usará el recurso Gratis de los servicios de Azure AI. Los datos de ejemplo constan de 14 archivos, por lo que la asignación gratuita de 20 transacciones en los servicios de Azure AI es suficiente para este inicio rápido.

    Captura de pantalla de la pestaña Adjuntar servicios de Azure AI.

  2. Expanda Agregar enriquecimientos y haga seis selecciones.

    Habilite el OCR para agregar aptitudes de análisis de imágenes a la página del asistente.

    Elija las aptitudes de reconocimiento de entidades (personas, organizaciones o ubicaciones) y análisis de imágenes (etiquetas, títulos).

    Captura de pantalla de la página de definición del conjunto de aptitudes.

    Continúe en la siguiente página.

Paso 3: Configuración del índice

Un índice incluye el contenido en el que se pueden realizar búsquedas y el Asistente para la importación de datos puede crear normalmente el esquema mediante el muestreo del origen de datos. En este paso, repase el esquema generado y revise la configuración.

En esta guía de inicio rápido, el asistente realiza un trabajo remarcable a la hora de configurar valores predeterminados razonables:

  • Los campos predeterminados se basan en las propiedades de los metadatos de los blobs existentes, además de los nuevos campos para la salida de enriquecimiento (por ejemplo, people, organizations, locations). Los tipos de datos se deducen de los metadatos y del muestreo de datos.

  • La clave de documento predeterminada es metadata_storage_path (se ha seleccionado porque el campo contiene valores únicos).

  • Los atributos predeterminados son Retrievable (Recuperable) y Searchable (Permite búsquedas). El atributo Searchable (Permite búsqueda) permite buscar texto completo en un campo. El atributo Retrievable (Recuperable) indica que un valor puede aparecer en los resultados. El asistente da por supuesto que desea que estos campos se puedan recuperar y permitan búsquedas porque los creó a través de un conjunto de aptitudes. Seleccione Filtrable si quiere usar campos en una expresión de filtro.

    Captura de pantalla de la página de definición del índice.

Marcar un campo como Retrievable no significa que el campo debe esté presente en los resultados de búsqueda. Puede controlar la composición de los resultados de la búsqueda si usa el parámetro de consulta select para especificar qué campos quiere incluir.

Continúe en la siguiente página.

Paso 4: configurar el indexador

El indexador rige el proceso de indexación. Asimismo, especifica el nombre del origen de datos, un índice de destino y la frecuencia de ejecución. El Asistente para la importación de datos crea varios objetos, incluido un indexador que se puede restablecer y ejecutar repetidamente.

  1. En la página Indexador, acepte el nombre predeterminado y seleccione Una vez.

    Captura de pantalla de la página de definición del índice.

  2. Seleccione Enviar para crear y ejecutar simultáneamente el indexador.

Supervisión de estado

Seleccione Indexadores en el panel de navegación izquierdo para supervisar el estado y, a continuación, seleccione el indexador. La indexación basada en aptitudes tarda más en completarse que la indexación basada en texto, especialmente en OCR y análisis de imágenes.

Captura de pantalla de la página de estado del indexador.

Para ver los detalles sobre el estado de ejecución, seleccione Correcto (o Erróneo) para ver los detalles de ejecución.

En esta demostración, hay algunas advertencias: "No se pudo ejecutar la aptitud porque una o varias entradas de aptitud no eran válidas". Indica que un archivo PNG del origen de datos no proporciona una entrada de texto al reconocimiento de entidades. Esta advertencia se produce porque la aptitud de OCR ascendente no reconoció ningún texto de la imagen y, por tanto, no pudo proporcionar una entrada de texto a la aptitud Reconocimiento de entidades descendente.

Las advertencias son comunes en la ejecución del conjunto de aptitudes. A medida que se familiarice con la forma en que las competencias iteran sobre sus datos, es posible que comience a notar patrones y a aprender qué advertencias es seguro ignorar.

Consulta en el Explorador de búsqueda

Después de crear un índice, use el Explorador de búsqueda para devolver los resultados.

  1. A la izquierda, seleccione Índices y, después, seleccione el índice. Explorador de búsqueda se encuentra en la primera pestaña.

  2. Escriba una cadena de búsqueda para consultar el índice como, por ejemplo, satya nadella. La barra de búsqueda acepta palabras clave, frases entre comillas y operadores: "Satya Nadella" +"Bill Gates" +"Steve Ballmer"

Los resultados se devuelven en formato JSON detallado, lo que puede ser difícil de leer, especialmente si se trata de documentos de gran tamaño. Algunas sugerencias para buscar en esta herramienta incluyen las siguientes técnicas:

  • Cambie a la vista JSON para especificar los parámetros que darán forma a los resultados.

  • Agregue select para limitar los campos de los resultados.

  • Agregue count para mostrar el número de coincidencias.

  • Use CTRL-F para buscar en el JSON las propiedades o los términos específicos.

    Captura de pantalla de la página del explorador de búsqueda.

Este es un texto JSON que puede pegar en la vista:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

Sugerencia

Las cadenas de consulta distinguen mayúsculas de minúsculas, por lo que si obtiene un mensaje de "campo desconocido", compruebe los campos o la definición de índice (JSON) para comprobar el nombre y el caso.

Puntos clave

Ahora ha creado su primer conjunto de aptitudes y ha aprendido los pasos básicos de la indexación basada en aptitudes.

Algunos conceptos clave que esperamos que haya tenido en cuenta incluyen las dependencias. Un conjunto de aptitudes está enlazado a un indexador y los indexadores son de Azure y específicos del origen. Aunque esta guía de inicio rápido usa Azure Blob Storage, también se pueden usar otros orígenes de datos de Azure. Para más información, consulte Indexadores de Azure AI Search.

Otro concepto importante es que las competencias operan sobre tipos de contenido y, cuando se trabaja con contenido heterogéneo, algunas entradas se omiten. Además, los archivos o campos grandes pueden superar los límites del indexador de su nivel de servicio. Es normal ver las advertencias cuando se producen estos eventos.

La salida se enruta hacia un índice de búsqueda y hay una asignación entre los pares nombre y valor que se crearon durante la indexación y los campos individuales del índice. De forma interna, el asistente configura un árbol de enriquecimiento y define un conjunto de aptitudes que establece el orden de las operaciones y el flujo general. Estos pasos están ocultos en el asistente, pero recuerde que estos conceptos serán importantes cuando comience a escribir el código.

Por último, ha aprendido que puede comprobar el contenido consultando el índice. Al final, lo que proporciona Azure AI Search es un índice de búsqueda en el que se pueden realizar consultas mediante la sintaxis de consulta simple o extendida. Un índice que contenga campos enriquecidos es como cualquier otro. Puede incorporar analizadores personalizados p estándar , perfiles de puntuación, sinónimos,navegación por facetas, búsqueda geográfica o cualquier otra característica de Azure AI Search.

Limpieza de recursos

Cuando trabaje con su propia suscripción, es una buena idea al final de un proyecto identificar si todavía se necesitan los recursos que ha creado. Los recursos que se dejan en ejecución pueden costarle mucho dinero. Puede eliminar los recursos de forma individual o bien eliminar el grupo de recursos para eliminar todo el conjunto de recursos.

Puede buscar y administrar los recursos en Azure Portal, mediante el vínculo Todos los recursos o Grupos de recursos en el panel de navegación izquierdo.

Si ha usado un servicio gratuito, recuerde que está limitado a tres índices, indexadores y orígenes de datos. Puede eliminar elementos individuales en Azure Portal para mantenerse por debajo del límite.

Paso siguiente

Para crear estos conjuntos de aptitudes, puede usar Azure Portal, el SDK de .NET o la API de REST. Para más información, pruebe la API REST mediante un cliente REST y más datos de ejemplo.