Guia de início rápido: criar um conjunto de habilidades no portal do Azure
Neste início rápido, você aprenderá como um conjunto de habilidades na Pesquisa de IA do Azure adiciona reconhecimento óptico de caracteres (OCR), análise de imagem, detecção de idioma, tradução de texto e reconhecimento de entidade para gerar conteúdo pesquisável por texto em um índice de pesquisa.
Você pode executar o assistente Importar dados no portal do Azure para aplicar habilidades que criam e transformam o conteúdo textual durante a indexação. A entrada são seus dados brutos, geralmente blobs no Armazenamento do Microsoft Azure. A saída é um índice pesquisável que contém texto de imagem, legendas e entidades gerados por IA. O conteúdo gerado é consultável no portal do Azure usando o Gerenciador de pesquisa.
Para se preparar, crie alguns recursos e carregue arquivos de exemplo antes de executar o assistente.
Pré-requisitos
Uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.
Crie um serviço de Pesquisa de IA do Azure ou encontre um serviço existente. É possível usar um serviço gratuito para este início rápido.
Uma conta de armazenamento do Azure com Armazenamento de Blobs do Azure.
Observação
Este início rápido usa os serviços de IA do Azure para as transformações da IA. Como a carga de trabalho é muito pequena, os serviços de IA do Azure são aproveitados nos bastidores para processamento gratuito de até 20 transações. Você pode concluir esse exercício sem precisar criar um recurso multisserviço do Azure AI.
Configurar seus dados
Nas etapas a seguir, configure um contêiner de blobs no Armazenamento do Azure para armazenar arquivos de conteúdo heterogêneos.
Fazer o download de dados de exemplo consiste em um conjunto de pequenos arquivos de tipos diferentes.
Entre no portal do Azure com sua conta do Azure.
Crie uma conta de Armazenamento do Azure ou localize uma existente.
Escolha a mesma região da IA do Azure Search para evitar preços de largura de banda.
Escolha o StorageV2 (V2 de uso geral).
No portal do Azure, abra sua página de Armazenamento do Microsoft Azure e crie um contêiner. Você pode usar o nível de acesso padrão.
Em Contêiner, selecione Upload para carregar os arquivos de amostra. Observe que você tem uma ampla variedade de tipos de conteúdo, incluindo imagens e arquivos de aplicativos que não são texto completo pesquisável em seus formatos nativos.
Agora você está pronto para avançar no assistente de importação de dados.
Executar o assistente de Importação de dados
Entre no portal do Azure com sua conta do Azure.
Encontre o seu serviço de pesquisa. Na página de visão geral, selecione Importar dados na barra de comandos para criar conteúdo pesquisável em quatro etapas.
Etapa 1: Criar uma fonte de dados
Em Conectar-se aos seus dados, escolha Armazenamento de Blobs do Azure.
Escolha uma conexão existente com a conta de armazenamento e selecione o contêiner que você criou. Dê um nome de fonte de dados e use valores padrão para o restante.
Continue para a próxima página.
Se você receber Erro ao detectar o esquema de índice da fonte de dados, o indexador que alimenta o assistente não poderá se conectar à sua fonte de dados. Provavelmente, a fonte de dados tem proteções de segurança. Experimente as seguintes soluções e execute novamente o assistente.
Recurso de segurança | Solução |
---|---|
O recurso requer funções do Azure ou suas chaves de acesso estão desabilitadas | Conecte-se como um serviço confiável ou usando uma identidade gerenciada |
O recurso está por trás de um firewall de IP | Criar uma regra de entrada para Pesquisa e para o portal do Azure |
O recurso requer uma conexão de ponto de extremidade privada | Conectar-se a um ponto de extremidade privado |
Etapa 2: Adicionar habilidades cognitivas
Em seguida, configure o enriquecimento de IA para invocar o OCR, a análise de imagem e o processamento em idioma natural.
A análise de imagem e OCR estão disponíveis para blobs no Armazenamento de Blobs do Azure e no Azure Data Lake Storage (ADLS) Gen2 e para conteúdo de imagem no OneLake. As imagens podem ser arquivos autônomos ou imagens inseridas em um PDF ou em outros arquivos.
Para este guia rápido, usamos o recurso Gratuito de serviços de IA do Azure. Os dados de amostra consistem em 14 arquivos, portanto, a alocação gratuita de 20 transações nos serviços de IA do Azure é suficiente para esse início rápido.
Expanda Adicionar enriquecimentos e faça seis seleções.
Habilite o OCR para adicionar habilidades de análise de imagem à página do assistente.
Escolha reconhecimento de entidade (pessoas, organizações, localizações) e habilidades de análise de imagem (marcas, legendas).
Continue para a próxima página.
Etapa 3: Configurar o índice
Um índice contém seu conteúdo pesquisável e o assistente Importar dados geralmente pode criar o esquema por amostragem da fonte de dados. Nesta etapa, revise o esquema gerado e, potencialmente, revise as configurações.
Para este guia de início rápido, o assistente faz um bom trabalho configurando padrões razoáveis:
Os campos padrão são baseados nas propriedades de metadados dos blobs existentes, além dos novos campos para a saída de enriquecimento (por exemplo,
people
,organizations
,locations
). Os tipos de dados são inferidos dos metadados e pela amostragem de dados.A chave do documento padrão é metadata_storage_path (selecionado porque o campo contém valores exclusivos).
Os atributos padrão são Recuperável e Pesquisável. Pesquisável permite a pesquisa de texto completo de um campo. Recuperável significa que os valores de campo podem ser retornados nos resultados. O assistente pressupõe que você deseja que esses campos sejam recuperáveis e pesquisáveis porque você os criou por meio de um conjunto de qualificações esses campos. Selecione Filtrável se você quiser usar campos em uma expressão de filtro.
Marcar um campo como Recuperável não significa que ele deve estar presente nos resultados da pesquisa. Você pode controlar a composição dos resultados da pesquisa usando o parâmetro de consulta selecionar para especificar os campos a serem incluídos.
Continue para a próxima página.
Etapa 4: Configurar o indexador
O indexador conduz o processo de indexação. Ele especifica o nome da fonte de dados, um índice de destino e a frequência de execução. O assistente Importar dados cria vários objetos, incluindo um indexador que você pode redefinir e executar várias vezes.
Na página Indexador, aceite o nome padrão e selecione Uma vez.
Selecione Enviar para criar e executar o indexador simultaneamente.
Monitorar status
Selecione Indexadores no painel de navegação esquerdo para monitorar o status e, em seguida, selecione o indexador. A indexação baseada em habilidades leva mais tempo do que a indexação baseada em texto, especialmente OCR e análise de imagens.
Para ver detalhes sobre o status da execução, selecione Êxito (ou Com Falha) para ver os detalhes da execução.
Nesta demonstração, há alguns avisos: "Não foi possível executar a habilidade porque uma ou mais entradas de habilidade eram inválidas." Ele informa que um arquivo PNG na fonte de dados não fornece uma entrada de texto para o Reconhecimento de Entidade. Esse aviso ocorre porque a habilidade de OCR upstream não reconheceu nenhum texto na imagem e, portanto, não pôde fornecer uma entrada de texto para a habilidade de Reconhecimento de Entidade downstream.
Avisos são comuns na execução do conjunto de habilidades. À medida que você se familiariza com a forma como as habilidades iteram sobre seus dados, você começará a observar padrões e aprenderá quais avisos são seguros de ignorar.
Consultar no Gerenciador de pesquisa
Depois que um índice for criado, use o Gerenciador de Pesquisa para retornar os resultados.
À esquerda, selecione Índices e, em seguida, selecione o índice. O Gerenciador de Pesquisa está na primeira guia.
Insira uma cadeia de caracteres de pesquisa para consultar o índice, como
satya nadella
. A barra de pesquisa aceita palavras-chave, frases entre aspas e operadores:"Satya Nadella" +"Bill Gates" +"Steve Ballmer"
Os resultados são retornados em JSON detalhado, que podem ser difíceis de serem lidos, especialmente em documentos grandes. Algumas dicas para pesquisa nessa ferramenta incluem as seguintes técnicas:
Alterne para o modo de exibição JSON para especificar os parâmetros que moldam os resultados.
Adicione
select
para limitar os campos nos resultados.Adicione
count
para mostrar o número de correspondências.Use CTRL-F para pesquisa no JSON em busca de propriedades ou termos específicos.
Aqui estão alguns JSON que você pode colar na exibição:
{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}
Dica
As cadeias de consulta diferenciam maiúsculas de minúsculas e, portanto, se você receber uma mensagem "campo desconhecido", verifique Campos ou Definição de Índice (JSON) para verificar o nome e as maiúsculas e as minúsculas.
Observações
Agora você criou seu primeiro conjunto de habilidades e aprendeu as etapas básicas da indexação baseada em habilidades.
Alguns conceitos-chave que esperamos que você tenha aprendido incluem as dependências. Um conjunto de habilidades é associado a um indexador e os indexadores são específicos do Azure e de origem. Embora este guia de início rápido use o Armazenamento de Blobs do Azure, outras fontes de dados do Azure são possíveis. Para obter mais informações, consulte Indexadores na IA do Azure Search.
Outro conceito importante é que as habilidades operam sobre os tipos de conteúdo e, ao trabalhar com um conteúdo heterogêneo, algumas entradas serão ignoradas. Além disso, arquivos ou campos grandes podem exceder os limites de indexador da sua camada de serviço. É normal ver avisos quando esses eventos ocorrem.
A saída é roteada para um índice de pesquisa e há um mapeamento entre os pares de nome-valor criados durante a indexação e os campos individuais em seu índice. Internamente, o assistente configura uma árvore de enriquecimento e define um conjunto de habilidades, estabelecendo a ordem das operações e o fluxo geral. Essas etapas estão ocultas no assistente, mas quando você começa a escrever o código, esses conceitos se tornam importantes.
Finalmente, você aprendeu que pode verificar o conteúdo consultando o índice. No final, o que a IA do Azure Search fornece é um índice pesquisável, que você pode consultar usando o simples ou sintaxe de consulta totalmente estendida. Um índice que contém campos enriquecidos é como qualquer outro. Você pode incorporar analisadores padrão ou analisadores personalizados, perfis de pontuação, sinônimos, navegação facetada, pesquisa geográfica ou qualquer outro recurso da Pesquisa de IA do Azure.
Limpar os recursos
Quando você está trabalhando em sua própria assinatura, é uma boa ideia identificar, no final de um projeto, se você ainda precisa dos recursos criados. Recursos deixados em execução podem custar dinheiro. É possível excluir os recursos individualmente ou excluir o grupo de recursos para excluir todo o conjunto de recursos.
Você pode encontrar e gerenciar de recursos no portal do Azure usando o link Todos os recursos ouGrupos de recursos no painel de navegação à esquerda.
Se você usou um serviço gratuito, lembre-se de que está limitado a três índices, indexadores e fontes de dados. Você pode excluir itens individuais no portal do Azure para permanecer abaixo do limite.
Próxima etapa
Você pode criar conjuntos de habilidades usando o portal do Azure, SDK do .NET ou a API REST. Para ampliar seu conhecimento, experimente a API REST usando um cliente REST e mais dados de amostra.