Guia de início rápido: criar um repositório de conhecimento no portal do Azure
Neste início rápido, você cria um repositório de conhecimento que serve como um repositório para a saída gerada a partir de um pipeline de enriquecimento de IA no Azure AI Search. Um repositório de conhecimento disponibiliza o conteúdo gerado no Armazenamento do Azure para cargas de trabalho diferentes da pesquisa.
Primeiro, você configura alguns dados de exemplo no Armazenamento do Azure. Em seguida, execute o assistente Importar dados para criar um pipeline de enriquecimento que também gere um armazenamento de conhecimento. O armazenamento de conhecimento contém conteúdo de origem original extraído da fonte de dados (avaliações de clientes de um hotel), além de conteúdo gerado por IA que inclui um rótulo de sentimento, extração de frases-chave e tradução de texto de comentários de clientes que não estão em inglês.
Pré-requisitos
Antes de começar, tenha os seguintes pré-requisitos em vigor:
Uma conta do Azure com uma subscrição ativa. Crie uma conta gratuitamente.
Azure AI Search. Crie um serviço ou encontre um serviço existente na sua conta. Você pode usar um serviço gratuito para este início rápido.
Armazenamento do Azure. Crie uma conta ou encontre uma conta existente. O tipo de conta deve ser StorageV2 (V2 de uso geral).
Dados de exemplo hospedados no Armazenamento do Azure:
Faça o download HotelReviews_Free.csv. Este CSV contém 19 comentários dos clientes sobre um único hotel (originário de Kaggle.com). O arquivo está em um repositório com outros dados de exemplo. Se você não quiser todo o repositório, copie o conteúdo bruto e cole-o em um aplicativo de planilha em seu dispositivo.
Carregue o arquivo em um contêiner de blob no Armazenamento do Azure.
Este guia de início rápido também usa os serviços de IA do Azure para enriquecimento de IA. Como a carga de trabalho é muito pequena, os serviços de IA do Azure são aproveitados nos bastidores para processamento gratuito de até 20 transações. Isso significa que você pode concluir este exercício sem precisar criar um recurso multisserviço extra do Azure AI.
Iniciar o assistente
Inicie sessão no portal do Azure com a sua conta do Azure.
Encontre seu serviço de pesquisa e, na página Visão geral, selecione Importar dados na barra de comandos para criar um repositório de conhecimento em quatro etapas.
Passo 1: criar uma origem de dados
Como os dados são várias linhas em um arquivo CSV, defina o modo de análise para obter um documento de pesquisa para cada linha.
Em Conectar aos seus dados, escolha Armazenamento de Blob do Azure.
Para o Nome, digite "hotel-reviews-ds".
Para Dados a serem extraídos, escolha Conteúdo e Metadados.
Para o modo de análise, selecione Texto delimitado e, em seguida, marque a caixa de seleção Primeira linha contém cabeçalho . Verifique se o caractere Delimitador é uma vírgula (,).
Em Cadeia de Conexão, escolha uma conexão existente se a conta de armazenamento estiver na mesma assinatura. Caso contrário, cole uma cadeia de conexão na sua conta de Armazenamento do Azure.
Uma cadeia de conexão pode ser de acesso total, tendo o seguinte formato:
DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net
Ou, uma cadeia de conexão pode fazer referência a uma identidade gerenciada, supondo que esteja configurada e atribuída uma função no Armazenamento do Azure:
ResourceId=/subscriptions/<YOUR-SUBSCRIPTION-ID>/resourceGroups/<YOUR-RESOURCE-GROUP-NAME>/providers/Microsoft.Storage/storageAccounts/<YOUR-ACCOUNT-NAME>;
Em Contêineres, insira o nome do contêiner de blob que contém os dados ("avaliações de hotéis").
Sua página deve ser semelhante à captura de tela a seguir.
Continue para a próxima página.
Etapa 2: adicionar habilidades
Nesta etapa do assistente, adicione habilidades para o enriquecimento da IA. Os dados de origem consistem em comentários de clientes em inglês e francês. As habilidades relevantes para esse conjunto de dados incluem extração de frases-chave, deteção de sentimentos e tradução de texto. Em uma etapa posterior, esses enriquecimentos são "projetados" em um repositório de conhecimento como tabelas do Azure.
Expanda Anexar serviços de IA do Azure. Gratuito (enriquecimento limitado) é selecionado por padrão. Você pode usar este recurso porque o número de registros em HotelReviews-Free.csv é 19 e este recurso gratuito permite até 20 transações por dia.
Expanda Adicionar enriquecimentos.
Para Nome do Skillset, digite "hotel-reviews-ss".
Para o campo Dados de origem, selecione reviews_text.
Para Nível de granularidade de enriquecimento, selecione Páginas (blocos de 5000 caracteres).
Para Habilidades Cognitivas de Texto, selecione as seguintes habilidades:
- Extrair expressões-chave
- Traduzir texto
- Deteção de idioma
- Detetar sentimento
Sua página deve se parecer com a seguinte captura de tela:
Role para baixo e expanda Salvar enriquecimentos no repositório de conhecimento.
Selecione Escolher uma conexão existente e, em seguida, selecione uma conta de Armazenamento do Azure. A página Contêineres é exibida para que você possa criar um contêiner para projeções. Recomendamos a adoção de uma convenção de nomenclatura de prefixos, como "kstore-hotel-reviews" para distinguir entre conteúdo de origem e conteúdo de armazenamento de conhecimento.
Voltando ao assistente Importar dados, selecione as seguintes projeções de tabela do Azure. O assistente sempre oferece a projeção de Documentos . Outras projeções são oferecidas dependendo das habilidades selecionadas (como frases-chave) ou da granularidade de enriquecimento (Páginas):
- Documentação
- Páginas
- Frases-chave
A captura de tela a seguir mostra as seleções de projeção de tabela no assistente.
Continue para a próxima página.
Passo 3: configurar o índice
Nesta etapa do assistente, configure um índice para consultas de pesquisa de texto completo opcionais. Você não precisa de um índice de pesquisa para um repositório de conhecimento, mas o indexador requer um para ser executado.
Nesta etapa, o assistente obtém amostras de sua fonte de dados para inferir campos e tipos de dados. Você só precisa selecionar os atributos para o comportamento desejado. Por exemplo, o atributo Retrievable permite que o serviço de pesquisa retorne um valor de campo, enquanto o atributo Searchable permite a pesquisa de texto completo no campo.
Em Nome do índice, digite "hotel-reviews-idx".
Para atributos, aceite as seleções padrão: Recuperável e Pesquisável para os novos campos que o pipeline está criando.
Seu índice deve ser semelhante à imagem a seguir. Como a lista é longa, nem todos os campos são visíveis na imagem.
Continue para a próxima página.
Etapa 4: Configurar e executar o indexador
Nesta etapa do assistente, configure um indexador que reúna a fonte de dados, o conjunto de habilidades e o índice definido nas etapas anteriores do assistente.
Em Nome, digite "hotel-reviews-idxr".
Para Agendar, mantenha o padrão Uma vez.
Selecione Enviar para executar o indexador. Extração de dados, indexação, aplicação de habilidades cognitivas acontecem nesta etapa.
Passo 5: Verificar o estado
Na página Visão geral, abra a guia Indexadores no meio da página e selecione hotels-reviews-idxr. Dentro de um ou dois minutos, o status deve progredir de "Em andamento" para "Sucesso" com zero erros e avisos.
Verificar tabelas no portal do Azure
No portal do Azure, abra a conta de Armazenamento usada para criar o repositório de conhecimento.
No painel de navegação esquerdo da conta de armazenamento, selecione Navegador de armazenamento para exibir as novas tabelas.
Você verá três tabelas, uma para cada projeção oferecida na seção "Salvar enriquecimentos" da página "Adicionar enriquecimentos".
"hotelReviewssDocuments" contém todos os nós de primeiro nível da árvore de enriquecimento de um documento que não são coleções.
"hotelReviewssKeyPhrases" contém uma longa lista apenas das frases-chave extraídas de todas as avaliações. Habilidades que produzem coleções (matrizes), como frases-chave e entidades, enviam a saída para uma tabela autônoma.
"hotelReviewssPages" contém campos enriquecidos criados em cada página que foi dividida do documento. Neste conjunto de competências e fonte de dados, enriquecimento ao nível da página que consiste em rótulos de sentimento e texto traduzido. Uma tabela de páginas (ou uma tabela de frases se você especificar esse nível específico de granularidade) é criada quando você escolhe a granularidade de "páginas" na definição do conjunto de habilidades.
Todas essas tabelas contêm colunas de ID para dar suporte a relações de tabela em outras ferramentas e aplicativos. Ao abrir uma tabela, passe por esses campos para exibir os campos de conteúdo adicionados pelo pipeline.
Neste início rápido, a tabela para "hotelReviewssPages" deve ser semelhante à seguinte captura de tela:
Limpeza
Ao trabalhar na sua própria subscrição, recomendamos que verifique, depois de concluir um projeto, se ainda vai precisar dos recursos que criou. Os recursos que deixar em execução podem custar dinheiro. Pode eliminar recursos individualmente ou eliminar o grupo de recursos para eliminar todo o conjunto de recursos.
Você pode encontrar e gerenciar recursos no portal, usando o link Todos os recursos ou Grupos de recursos no painel de navegação esquerdo.
Se você estiver usando um serviço gratuito, lembre-se de que está limitado a três índices, indexadores e fontes de dados. Você pode excluir itens individuais no portal para ficar abaixo do limite.
Gorjeta
Se você quiser repetir este exercício ou tentar um passo a passo diferente de enriquecimento de IA, exclua o indexador hotel-reviews-idxr e os objetos relacionados para recriá-los. A exclusão do indexador redefine o contador de transações diárias gratuitas para zero.
Próximos passos
Agora que você foi apresentado a um repositório de conhecimento, dê uma olhada mais de perto em cada etapa alternando para o passo a passo da API REST. As tarefas que o assistente manipulou internamente são explicadas no passo a passo REST.