Importar assistentes de dados no portal do Azure

Artigo
12/18/2024

A Pesquisa de IA do Azure tem dois assistentes de importação que automatizam a indexação e a criação de objetos para que você possa começar a consultar imediatamente. Se a Pesquisa de IA do Azure é novidade para você, saiba que esses assistentes são alguns dos recursos mais poderosos à sua disposição. Com o mínimo de esforço, você pode criar um pipeline de indexação ou enriquecimento que exerça a maior parte da funcionalidade do Azure AI Search.

O Assistente de importação de dados dá suporte aos fluxos de trabalho não-coletores. Você pode extrair texto e números de documentos brutos. Pode, também, configurar a IA e as habilidades integradas aplicadas que inferem estrutura e geram conteúdo de texto pesquisável a partir de arquivos de imagem e dados não estruturados.
O Assistente de importação e vetorização de dados adiciona agrupamento e vetorização. Você precisa especificar uma implantação existente de um modelo de incorporação, mas o assistente faz a conexão, formula a solicitação e se encarrega da resposta. Além disso, gera conteúdo vetorial com base no conteúdo de um texto ou imagem.

Se você estiver usando o assistente para testes de prova de conceito, este artigo explica o funcionamento interno dos assistentes para que você possa usá-los com maior eficácia.

Este artigo não é um passo a passo. Para obter ajuda sobre como usar o assistente com dados de exemplo, consulte:

Cenários e fontes de dados com suporte

Os assistentes dão suporte à maioria das fontes de dados compatíveis com os indexadores.

Dados	Assistente Importar Dados	Assistente de importação e vetorização de dados
ADLS Gen2	✅	✅
Armazenamento de Blobs do Azure	✅	✅
Armazenamento de Arquivos do Azure	❌	❌
Armazenamento de Tabelas do Azure	✅	✅
Banco de dados SQL do Azure e instância gerenciada	✅	✅
Cosmos DB para NoSQL	✅	✅
Cosmos DB para MongoDB	✅	✅
Cosmos DB para Apache Gremlin	✅	✅
MySQL	❌	❌
OneLake	✅	✅
SharePoint Online	❌	❌
SQL Server em máquinas virtuais	✅	✅

Dados de amostra

A Microsoft hospeda dados de exemplo para que você possa omitir uma etapa de configuração da fonte de dados em um fluxo de trabalho do assistente.

Dados de amostra	Assistente Importar Dados	Assistente de importação e vetorização de dados
hotéis	✅	❌
imóveis	✅	❌

Habilidades

Esta seção lista as habilidades que podem aparecer em um conjunto de habilidades gerado por um assistente. Os assistentes geram um conjunto de habilidades e mapeamentos de campo de saída com base nas opções que você selecionou. Depois que o conjunto de habilidades for criado, você poderá modificar sua definição do JSON para adicionar mais habilidades.

Aqui estão alguns pontos que você deve ter em mente sobre as habilidades da lista a seguir:

As opções de análise de imagem e OCR estão disponíveis para blobs no Armazenamento do Azure e arquivos no OneLake, assumindo o modo de análise padrão. As imagens são um tipo de conteúdo de imagem (como PNG ou JPG) ou uma imagem incorporada em um arquivo de aplicativo (como PDF).
O Shaper será adicionado se você configurar um repositório de conhecimento.
A Divisão de Texto e a Mesclagem de Texto serão adicionadas no agrupamento de dados se você escolher um modelo de inserção. Elas serão adicionadas em outras habilidades de não inserção se a granularidade do campo de origem estiver definida como páginas ou frases.

Habilidades	Assistente Importar Dados	Assistente de importação e vetorização de dados
Multimodal da Visão de IA	❌	✅
Inserção do OpenAI do Azure	❌	✅
Azure Machine Learning (catálogo de modelos do IA do Azure Foundry)	❌	✅
Layout do Documento	❌	✅
Reconhecimento de entidade	✅	❌
Análise de imagem (aplica-se a blobs, análise padrão, indexação de arquivo inteiro	✅	❌
Extração de palavra-chave	✅	❌
Detecção de idioma	✅	❌
Tradução de texto	✅	❌
OCR (aplica-se a blobs, análise padrão, indexação de arquivo inteiro)	✅	✅
Detecção de PII	✅	❌
Análise de sentimento	✅	❌
Shaper (aplica-se ao repositório de conhecimento)	✅	❌
Divisão de texto	✅	✅
Mesclagem de texto	✅	✅

Repositório de conhecimento

Você pode gerar um repositório de conhecimento no armazenamento secundário de conteúdo enriquecido (gerado pelas habilidades). Talvez você queira um repositório de conhecimento nos fluxos de trabalho de recuperação de informações que não exigem um mecanismo de pesquisa.

Repositório de conhecimento	Assistente Importar Dados	Assistente de importação e vetorização de dados
storage	✅	❌

O que os assistentes criam

Os assistentes de importação criam os objetos descritos na tabela a seguir. Depois que os objetos são criados, você pode examinar suas definições JSON no portal do Azure ou chamá-los do código.

Para exibir esses objetos após a execução do assistente:

Entre no portal do Azure e localize o serviço de pesquisa.
Selecione Gerenciamento de pesquisa no menu para localizar páginas para índices, indexadores, fontes de dados e conjuntos de habilidades.

Objeto	Descrição
Indexador	Um objeto de configuração especifica uma fonte de dados, um índice de destino, um conjunto de habilidades opcional, um agendamento opcional e definições de configuração opcionais para a transmissão de erro e a codificação de base 64.
Fonte de dados	Persiste as informações de conexão com uma fonte de dados com suporte no Azure. Um objeto da fonte de dados é usado exclusivamente com indexadores.
Index	A estrutura de dados física usada para pesquisa de texto completo e outras consultas.
Conjunto de habilidades	Opcional. Um conjunto completo de instruções para manipular, transformar e formatar conteúdo, incluindo a análise e a extração de informações de arquivos de imagem. Os conjuntos de habilidades também são usados para a vetorização integrada. A menos que o volume de trabalho esteja abaixo do limite de 20 transações por indexador por dia, o conjunto de habilidades deverá incluir uma referência a um recurso multisserviço da IA do Azure que forneça enriquecimento. Para uma vetorização integrada, você pode usar a Visão de IA do Azure ou um modelo de incorporação no catálogo de modelos do Azure AI Foundry.
Repositório de conhecimento	Opcional. Disponível somente no assistente de Importação de dados. Armazena a saída do conjunto de habilidades enriquecido nas tabelas e blobs no Armazenamento do Azure para análise independente ou processamento downstream nos cenários sem pesquisa.

Benefícios

Antes de gravar qualquer código, você pode usar os assistentes para prototipagem e testes de prova de conceito. Os assistentes se conectam a fontes de dados externas, extraem amostras dos dados para criar um índice inicial e, em seguida, importam e opcionalmente vetorizam os dados como documentos JSON em um índice da Pesquisa de IA do Azure.

Se você estiver avaliando conjuntos de habilidades, o assistente se encarrega dos mapeamentos dos campos de saída e adiciona funções auxiliares para criar objetos utilizáveis. A divisão de texto será adicionada se você especificar um modo de análise. A mesclagem de texto será adicionada se você escolher a análise de imagem para que o assistente possa reunir as descrições de texto com o conteúdo da imagem. As habilidades do Shaper são adicionadas para dar suporte às projeções válidas se você escolher a opção de armazenamento de conhecimento. Todas as tarefas acima vêm com uma curva de aprendizado. Se o enriquecimento é novidade para você, a possibilidade de ter essas etapas processadas para você lhe permite medir o valor de uma habilidade sem precisar investir muito tempo e esforço.

A amostragem está em processo pelo qual um esquema de índice será inferido e tem algumas limitações. Assim que a fonte de dados é criada, o assistente escolhe uma amostra aleatória de documentos para decidir quais colunas fazem parte da fonte de dados. Nem todos os arquivos são lidos, pois isso pode levar horas para as fontes de dados muito grandes. Tendo em conta uma seleção de documentos, os metadados de origem, como nome de campo ou tipo, são usados para criar uma coleção de campos em um esquema de índice. Dependendo da complexidade dos dados de origem, talvez seja necessário editar o esquema inicial para obter precisão ou estendê-lo para fins de integralidade. Você pode fazer as alterações embutidas na página definição de índice.

De modo geral, as vantagens de usar o assistente são claras: desde que os requisitos sejam cumpridos, você poderá criar um índice consultável em poucos minutos. Algumas das complexidades da indexação, como a serialização de dados como documentos JSON, são tratadas pelos assistentes.

Limitações

Os assistentes de importação não estão isentos de limitações. As restrições são resumidas da seguinte maneira:

Os assistentes não suportam iteração ou reaproveitamento. Cada passagem o assistente cria um novo índice, um novo conjunto de habilidades e uma configuração de indexador. Somente as fontes de dados podem ser persistentes e reutilizadas no assistente. Para editar ou refinar outros objetos, exclua os objetos e comece de novo, ou use as APIs REST ou o SDK do .NET para modificar as estruturas.
O conteúdo de origem deve residir numa fonte de dados com suporte.
A amostragem ocorre num subconjunto de dados de origem. Para fontes de dados consideráveis, é possível que o assistente perca campos. Pode ser necessário estender o esquema ou corrigir os tipos de dados inferidos, se a amostragem for insuficiente.
O enriquecimento de IA, conforme exposto no portal do Azure, é limitado a um subconjunto de habilidades internas.
Um repositório de conhecimento, que pode ser criado pelo assistente Importar dados, é limitado a algumas projeções padrão e usa uma convenção de nomenclatura padrão. Para personalizar nomes ou projeções, você precisará criar o repositório de conhecimento por meio da API REST ou dos SDKs.

Conexões seguras

Os assistentes de importação fazem conexões de saída usando o controlador do portal do Azure e os pontos de extremidade públicos. Você não poderá usar os assistentes se os recursos do Azure forem acessados por uma conexão privada ou por meio de um link privado compartilhado.

Você pode usar os assistentes por meio de conexões públicas restritas, mas nem todas as funcionalidades estarão disponíveis.

Em um serviço de pesquisa, importar amostras de dados integradas requer um ponto de extremidade público e nenhuma regra de firewall.

As amostras de dados são hospedados pela Microsoft em recursos específicos do Azure. o controlador do portal do Azure se conecta a esses recursos em um ponto de extremidade público. Se colocar seu serviço de pesquisa por trás de um firewall, você receberá esse erro quando tentar recuperar as amostras de dados integradas: Import configuration failed, error creating Data Source, seguido de "An error has occured.".
Em fontes de dados do Azure com suporte protegidas por firewalls, você poderá recuperar dados se as regras de firewall corretas estiverem implementadas.

O recurso do Azure precisará admitir solicitações de rede provenientes do endereço IP do dispositivo usado na conexão. Você também deve listar a Pesquisa de IA do Azure como um serviço confiável na configuração de rede do recurso. Por exemplo, você pode listar o Microsoft.Search/searchServices como um serviço confiável no Armazenamento do Microsoft Azure.
Em conexões com uma conta de vários serviços de IA do Azure que você fornece ou em conexões com modelos de inserção implantados no portal do Azure AI Foundry ou no OpenAI do Azure, o acesso à Internet pública deve ser habilitado, a menos que seu serviço de pesquisa atenda aos requisitos de data de criação, camada e região para conexões privadas. Para obter mais informações sobre esses requisitos, consulte Fazer conexões de saída por meio de um link privado compartilhado.

As conexões com vários serviços de IA do Azure são para fins de cobrança. A cobrança ocorre quando as chamadas à API excedem a contagem de transações gratuitas (20 por execução do indexador) para habilidades internas chamadas pelo assistente Importar dados ou vetorização integrada no assistente de importação e vetorização de dados.

Se a Pesquisa de IA do Azure não puder fazer a conexão:
- No assistente de Importação e vetorização de dados, o erro será "Access denied due to Virtual Network/Firewall rules."
- No assistente de Importação de dados não há nenhum erro, mas o conjunto de habilidades não será criado.

Se as configurações de firewall impedirem que os fluxos de trabalho do seu assistente sejam bem-sucedidos, pense em adotar, em vez disso, abordagens programáticas ou baseadas em script.

Workflow

O assistente é organizado em quatro etapas principais:

Conectar-se a uma fonte de dados no Azure com suporte.
Criar um esquema de índice, inferido por dados de origem de amostragem.
Opcionalmente, ele adiciona habilidades para extrair ou gerar conteúdo e estrutura. As entradas para criar um repositório de conhecimento são coletadas nesta etapa.
Execute o assistente para criar objetos e, opcionalmente, vetorizar dados, carregar dados em um índice, definir um agendamento e outras opções de configuração.

O fluxo de trabalho é um pipeline, portanto, é uma forma. Você não pode usar o assistente para editar um dos objetos que foram criados, mas pode usar outras ferramentas do portal, como o designer de índice ou indexador ou os editores JSON, para as atualizações permitidas.

Como iniciar os assistentes

Veja como você inicia os assistentes.

No portal do Azure, abra a página de serviço de pesquisa no painel ou localize seu serviço na lista de serviços.
Na página de Visão Geral do serviço, na parte superior, selecione Importar dados ou Importar e vetorizar dados.

Os assistentes se abrem totalmente expandidos na janela do navegador para que você tenha mais espaço para trabalhar.
Se você selecionou Importar de dados, poderá selecionar a opção Exemplos para indexar um conjunto de dados hospedado pela Microsoft de uma fonte de dados com suporte.
Siga as etapas restantes no assistente para criar o índice e o indexador.

Você também pode iniciar aImportação de dadosde outros serviços do Azure, incluindo o Azure Cosmos DB, o Banco de Dados SQL do Azure, Instância Gerenciada de SQL e o Armazenamento de Blobs do Azure. Procure por Adicionar Azure AI Search no painel de navegação à esquerda da página de visão geral do serviço.

Configuração da fonte de dados no assistente

Os assistentes se conectam a uma fonte de dados com suporte externa usando a lógica interna fornecida pelos indexadores da Pesquisa de IA do Azure, que são equipados para extrair amostras da origem, ler metadados, decifrar documentos para ler seu conteúdo e estrutura e serializar o conteúdo como JSON para, subsequentemente, importá-lo para a Pesquisa de IA do Azure.

Você pode colar em uma conexão com uma fonte de dados com suporte em uma assinatura ou região diferente, mas o seletor Escolher uma conexão existente tem como escopo a assinatura ativa.

Não é garantido que todas as fontes de dados da versão prévia estejam disponíveis no assistente. Como cada fonte de dados tem o potencial de introduzir outras alterações downstream, uma fonte de dados da versão prévia só será adicionada à lista de fontes de dados se ela for totalmente compatível com todas as experiências no assistente, como a definição do conjunto de habilidades e a inferência de esquema de índice.

Você só pode importar de uma única tabela, exibição do banco de dados ou estrutura de dados equivalente, no entanto, a estrutura pode incluir as subestruturas hierárquicas ou aninhadas. Para obter mais informações, consulteComo modelar os tipos complexos.

Configuração do conjunto de habilidades no assistente

A configuração do conjunto de habilidades ocorre após a definição da fonte de dados porque o tipo de fonte de dados informa a disponibilidade de determinadas habilidades integradas. Especialmente se você estiver indexando arquivos do armazenamento de Blobs, sua escolha do modo de análise desses arquivos determina se a análise de sentimento está disponível.

O assistente adiciona as habilidades que você escolher. Também adiciona outras habilidades que são necessárias para alcançar um resultado bem-sucedido. Por exemplo, se você especificar um repositório de conhecimento, o assistente adicionará uma habilidade do Shaper para dar suporte a projeções (ou estruturas de dados físicos).

Os conjuntos de habilidades são opcionais e há um botão na parte inferior da página para ignorar caso você não queira o enriquecimento de IA.

Configuração de esquema de índice no assistente

Os assistentes extraem amostras da sua fonte de dados para detectar os campos e o tipo de campo. Dependendo da fonte de dados, ela também pode oferecer campos para indexação de metadados.

Como a amostragem é um exercício impreciso, revise o índice para ver as seguintes considerações:

A lista dos campos é precisa? Se sua fonte de dados contiver campos que não foram coletados na amostragem, você poderá adicionar manualmente os novos campos que a amostragem não coletou, e remover o campo que não adiciona valor a uma experiência de pesquisa ou que não será usado em uma expressão de filtro ou perfil de pontuação.
O tipo de dados é apropriado para os dados da entrada ? O Azure AI Search dá suporte aostipos de dados do EDM (modelo de dados de entidade). Para os dados de SQL do Azure, há um gráfico de mapeamento que estabelece valores equivalentes. Para obter mais informações em segundo plano, consulteMapeamentos de campo e transformações.
Você tem um campo que pode servir como achave? Este campo deve ser Edm.String e deve identificar exclusivamente um documento. Para os dados relacionais, eles podem ser mapeados à uma chave primária. Para os blobs, pode ser ometadata-storage-path. Se os valores de campo incluírem espaços ou traços, defina a opção Chave de Codificação de Base 64 na etapa Criar um indexador, em Opções avançadas, para suprimir a verificação de validação para esses caracteres.
Defina os atributos para determinar como esse campo é usado em um índice.

Reserve seu tempo com esta etapa porque os atributos determinam a expressão física dos campos no índice. Caso queira alterar atributos mais tarde, mesmo que de forma programática, você quase sempre precisará remover e recompilar o índice. Atributos principais, como Pesquisáveis e Recuperáveis, têm um efeito insignificante no armazenamento. A habilitação dos filtros e o uso de sugestões aumentam os requisitos de armazenamento.
- Pesquisável habilita a pesquisa de texto completo. Todos os campos usados em consultas de forma livre ou em expressões de consulta devem ter esse atributo. Índices invertidos são criados para cada campo que você marcar como Pesquisável.
- Recuperável retorna o campo nos resultados da pesquisa. Todos os campos que fornecem conteúdo para os resultados da pesquisa devem ter esse atributo. Definir este campo não afetará significativamente o tamanho do índice.
- Filtrável permite que o campo seja referenciado em expressões de filtro. Todos os campos usados em uma expressão $filter devem ter esse atributo. As expressões de filtro servem para correspondências exatas. Como as cadeias de caracteres de texto permanecem intactas, é necessário mais armazenamento para acomodar o conteúdo textual.
- Com faceta habilita o campo para a navegação facetada. Somente os campos que também estão marcados como Filtrável podem ser marcados como Com faceta.
- Classificável permite que o campo seja usado em uma classificação. Todos os campos usados em uma expressão $Orderby devem ter esse atributo.
Você precisa deanálise léxica? Para campos Edm.string que sãoPesquisáveis,você pode definir umAnalisadorse quiser indexação e consulta aprimoradas por idioma.

O padrão é Lucene Standard, mas você pode escolher English Microsoft se quiser usar o analisador da Microsoft para processamento léxico avançado, como resolver formas verbais e substantivos irregulares. Somente analisadores de idioma podem ser especificados no portal do Azure. Se usar um analisador personalizado ou um analisador que não seja de linguagem, como Palavra-Chave, Padrão etc., você precisará criá-lo programaticamente. Para obter mais informações sobre os analisadores, confira Adicionar analisadores de linguagem.
Você precisa da funcionalidade de preenchimento automático na forma de preenchimento automático ou de resultados sugeridos? Marque a caixa de seleção doSugestorpara habilitar o preenchimento automático de sugestões de consulta e preenchimento automáticonos campos escolhidos. Os sugestores adicionam o número de termos indexados no índice e, portanto, consomem mais armazenamento.

Configuração do indexador no assistente

A última página do assistente coleta entradas do usuário para a configuração do indexador. Você pode especificar um agendamento e definir outras opções que variam de acordo com o tipo de fonte de dados.

Internamente, o assistente também configura as seguintes definições, que não ficam visíveis no indexador até que ele seja criado:

mapeamentos de campo entre a fonte de dados e o índice
mapeamentos de campo de saída entre a saída da habilidade e um índice

Experimente os assistentes

A melhor maneira para o reconhecimento dos benefícios e as limitações do assistente é percorrê-lo. Aqui estão alguns guias de início rápido baseados no assistente.

Compartilhar via