Partilhar via


Guia de início rápido: criar um conjunto de habilidades no portal do Azure

Neste guia de início rápido, você aprenderá como um conjunto de habilidades no Azure AI Search adiciona reconhecimento ótico de caracteres (OCR), análise de imagem, deteção de idioma, tradução de texto e reconhecimento de entidade para gerar conteúdo pesquisável por texto em um índice de pesquisa.

Você pode executar o assistente Importar dados no portal do Azure para aplicar habilidades que criam e transformam conteúdo textual durante a indexação. A entrada são seus dados brutos, geralmente blobs no Armazenamento do Azure. A saída é um índice pesquisável que contém texto, legendas e entidades de imagem gerados por IA. O conteúdo gerado pode ser consultado no portal do Azure usando o Gerenciador de Pesquisa.

Para se preparar, crie alguns recursos e carregue arquivos de exemplo antes de executar o assistente.

Pré-requisitos

  • Uma conta do Azure com uma subscrição ativa. Crie uma conta gratuitamente.

  • Crie um serviço Azure AI Search ou localize um serviço existente. Você pode usar um serviço gratuito para este início rápido.

  • Uma conta de Armazenamento do Azure com o Armazenamento de Blobs do Azure.

Nota

Este guia de início rápido usa os serviços de IA do Azure para as transformações de IA. Como a carga de trabalho é muito pequena, os serviços de IA do Azure são aproveitados nos bastidores para processamento gratuito de até 20 transações. Você pode concluir este exercício sem precisar criar um recurso multisserviço da IA do Azure.

Configurar os seus dados

Nas etapas a seguir, configure um contêiner de blob no Armazenamento do Azure para armazenar arquivos de conteúdo heterogêneos.

  1. A transferência de dados de exemplo é constituída por um pequeno conjunto de ficheiros de diferentes tipos.

  2. Inicie sessão no portal do Azure com a sua conta do Azure.

  3. Crie uma conta de Armazenamento do Azure ou localize uma conta existente.

    • Escolha a mesma região que o Azure AI Search para evitar cobranças de largura de banda.

    • Escolha o StorageV2 (V2 de uso geral).

  4. No portal do Azure, abra sua página de Armazenamento do Azure e crie um contêiner. Você pode usar o nível de acesso padrão.

  5. Em Contêiner, selecione Carregar para carregar os arquivos de exemplo. Observe que você tem uma ampla variedade de tipos de conteúdo, incluindo imagens e arquivos de aplicativos que não podem ser pesquisados em texto completo em seus formatos nativos.

    Captura de ecrã dos ficheiros de origem no Armazenamento de Blobs do Azure.

Agora você está pronto para avançar no assistente Importar dados.

Execute o assistente Importar dados

  1. Inicie sessão no portal do Azure com a sua conta do Azure.

  2. Encontre o seu serviço de pesquisa. Na página Visão geral, selecione Importar dados na barra de comandos para criar conteúdo pesquisável em quatro etapas.

    Captura de ecrã do comando Importar dados.

Passo 1: criar uma origem de dados

  1. Em Conectar aos seus dados, escolha Armazenamento de Blob do Azure.

  2. Escolha uma conexão existente com a conta de armazenamento e selecione o contêiner que você criou. Dê um nome à origem de dados e utilize os valores predefinidos para o resto.

    Captura de tela da página de definição da fonte de dados.

    Continue para a próxima página.

Se você obtiver o esquema de índice de deteção de erro da fonte de dados, o indexador que alimenta o assistente não poderá se conectar à sua fonte de dados. Muito provavelmente, a fonte de dados tem proteções de segurança. Tente as seguintes soluções e, em seguida, execute novamente o assistente.

Funcionalidade de segurança Solução
O recurso requer funções do Azure ou suas chaves de acesso estão desabilitadas Conecte-se como um serviço confiável ou conecte-se usando uma identidade gerenciada
O recurso está por trás de um firewall IP Criar uma regra de entrada para a Pesquisa e para o portal do Azure
O recurso requer uma conexão de ponto de extremidade privada Ligar através de um ponto de extremidade privado

Passo 2: adicionar capacidades cognitivas

Em seguida, configure o enriquecimento de IA para invocar OCR, análise de imagem e processamento de linguagem natural.

OCR e análise de imagem estão disponíveis para blobs no Armazenamento de Blobs do Azure e no Azure Data Lake Storage (ADLS) Gen2 e para conteúdo de imagem no OneLake. As imagens podem ser ficheiros autónomos ou imagens incorporadas num PDF ou noutros ficheiros.

  1. Para este início rápido, estamos usando o recurso de serviços de IA gratuitos do Azure. Os dados de exemplo consistem em 14 arquivos, portanto, a alocação gratuita de 20 transações nos serviços de IA do Azure é suficiente para esse início rápido.

    Captura de ecrã do separador Anexar serviços de IA do Azure.

  2. Expanda Adicionar enriquecimento e faça seis seleções.

    Habilite o OCR para adicionar habilidades de análise de imagem à página do assistente.

    Escolha o reconhecimento de entidades (pessoas, organizações, locais) e habilidades de análise de imagem (tags, legendas).

    Captura de tela da página de definição do conjunto de habilidades.

    Continue para a próxima página.

Passo 3: configurar o índice

Um índice contém seu conteúdo pesquisável e o assistente Importar dados geralmente pode criar o esquema por amostragem da fonte de dados. Nesta etapa, revise o esquema gerado e, potencialmente, revise todas as configurações.

Para este início rápido, o assistente é muito útil, pois define predefinições razoáveis:

  • Os campos padrão são baseados nas propriedades de metadados de blobs existentes, além dos novos campos para a saída de enriquecimento (por exemplo, people, organizationslocations, ). Os tipos de dados são inferidos a partir de metadados e por amostragem de dados.

  • A chave de documento padrão é metadata_storage_path (selecionada porque o campo contém valores exclusivos).

  • Os atributos padrão são Recuperável e Pesquisável. Pesquisável permite pesquisar texto completo em um campo. Recuperável significa que os valores de campo podem ser retornados nos resultados. O assistente assume que você deseja que esses campos sejam recuperáveis e pesquisáveis porque você os criou por meio de um conjunto de habilidades. Selecione Filtrável se quiser usar campos em uma expressão de filtro.

    Captura de ecrã da página de definição do índice.

Marcar um campo como recuperável não significa que o campo deve estar presente nos resultados da pesquisa. Você pode controlar a composição dos resultados da pesquisa usando o parâmetro select query para especificar quais campos devem ser incluídos.

Continue para a próxima página.

Passo 4: configurar o indexador

O indexador conduz o processo de indexação. Ele especifica o nome da fonte de dados, um índice de destino e a frequência de execução. O assistente Importar dados cria vários objetos, incluindo um indexador que você pode redefinir e executar repetidamente.

  1. Na página Indexador, aceite o nome padrão e selecione Uma vez.

    Captura de ecrã da página de definição do indexador.

  2. Selecione Enviar para criar e executar simultaneamente o indexador.

Estado da monitorização

Selecione Indexadores no painel de navegação esquerdo para monitorar o status e, em seguida, selecione o indexador. A indexação baseada em habilidades leva mais tempo do que a indexação baseada em texto, especialmente OCR e análise de imagem.

Captura de ecrã da página de estado do indexador.

Para exibir detalhes sobre o status de execução, selecione Êxito (ou Falha) para exibir os detalhes da execução.

Nesta demonstração, há alguns avisos: "Não foi possível executar a habilidade porque uma ou mais entradas de habilidade eram inválidas." Ele informa que um arquivo PNG na fonte de dados não fornece uma entrada de texto para o Reconhecimento de Entidade. Esse aviso ocorre porque a habilidade OCR upstream não reconheceu nenhum texto na imagem e, portanto, não pôde fornecer uma entrada de texto para a habilidade de Reconhecimento de Entidade downstream.

Avisos são comuns na execução de conjuntos de habilidades. À medida que você se familiariza com a forma como as habilidades iteram sobre seus dados, você pode começar a notar padrões e aprender quais avisos são seguros para ignorar.

Consultar no Explorador de procura

Depois que um índice for criado, use o Gerenciador de Pesquisa para retornar resultados.

  1. À esquerda, selecione Índices e, em seguida, selecione o índice. O explorador de pesquisa encontra-se no primeiro separador.

  2. Insira uma cadeia de caracteres de pesquisa para consultar o índice, como satya nadella. A barra de pesquisa aceita palavras-chave, frases entre aspas e operadores: "Satya Nadella" +"Bill Gates" +"Steve Ballmer"

Os resultados são retornados como JSON detalhado, que pode ser difícil de ler, especialmente em documentos grandes. Algumas dicas para pesquisar nesta ferramenta incluem as seguintes técnicas:

  • Alterne para o modo de exibição JSON para especificar parâmetros que moldam os resultados.

  • Adicionar select para limitar os campos nos resultados.

  • Adicionar count para mostrar o número de correspondências.

  • Use CTRL-F para pesquisar propriedades ou termos específicos dentro do JSON.

    Captura de ecrã da página Explorador de pesquisa.

Aqui estão alguns JSON que você pode colar na exibição:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

Gorjeta

As cadeias de caracteres de consulta diferenciam maiúsculas de minúsculas, portanto, se você receber uma mensagem de "campo desconhecido", marque Campos ou Definição de índice (JSON) para verificar o nome e as maiúsculas e minúsculas.

Conclusões

Agora você criou seu primeiro conjunto de habilidades e aprendeu as etapas básicas da indexação baseada em habilidades.

Alguns conceitos-chave que esperamos que você tenha escolhido incluem as dependências. Um conjunto de habilidades está vinculado a um indexador, e os indexadores são do Azure e específicos da fonte. Embora este guia de início rápido use o Armazenamento de Blobs do Azure, outras fontes de dados do Azure são possíveis. Para obter mais informações, consulte Indexadores no Azure AI Search.

Outro conceito importante é que as habilidades operam sobre tipos de conteúdo e, ao trabalhar com conteúdo heterogêneo, algumas entradas são ignoradas. Além disso, arquivos ou campos grandes podem exceder os limites do indexador da sua camada de serviço. É normal ver avisos quando esses eventos ocorrem.

A saída é roteada para um índice de pesquisa e há um mapeamento entre pares nome-valor criados durante a indexação e campos individuais no índice. Internamente, o assistente configura uma árvore de enriquecimento e define um conjunto de habilidades, estabelecendo a ordem das operações e o fluxo geral. Essas etapas estão ocultas no assistente, mas quando você começa a escrever código, esses conceitos se tornam importantes.

Finalmente, você aprendeu que pode verificar o conteúdo consultando o índice. No final, o que o Azure AI Search fornece é um índice pesquisável, que você pode consultar usando a sintaxe de consulta simples ou totalmente estendida. Um índice com campos melhorados é igual a qualquer outro. Você pode incorporar analisadores padrão ou personalizados, perfis de pontuação, sinônimos, navegação facetada, pesquisa geográfica ou qualquer outro recurso do Azure AI Search.

Clean up resources (Limpar recursos)

Ao trabalhar na sua própria subscrição, recomendamos que verifique, depois de concluir um projeto, se ainda vai precisar dos recursos que criou. Os recursos que deixar em execução podem custar dinheiro. Pode eliminar recursos individualmente ou eliminar o grupo de recursos para eliminar todo o conjunto de recursos.

Você pode localizar e gerenciar recursos no portal do Azure, usando o link Todos os recursos ou Grupos de recursos no painel de navegação esquerdo.

Se você usou um serviço gratuito, lembre-se de que está limitado a três índices, indexadores e fontes de dados. Você pode excluir itens individuais no portal do Azure para permanecer abaixo do limite.

Próximo passo

Você pode criar conjuntos de habilidades usando o portal do Azure, o SDK do .NET ou a API REST. Para aprofundar seus conhecimentos, tente a API REST usando um cliente REST e mais dados de exemplo.