Analisar ou fragmentar conteúdo para fluxos de trabalho padrão em Aplicativos Lógicos do Azure (Versão prévia)
Aplica-se a: Aplicativos Lógicos do Azure (Standard)
Importante
Esse recurso está em versão prévia e está sujeito aos Termos de uso suplementares para versões prévias do Microsoft Azure.
Às vezes você precisa converter o conteúdo em tokens, que são palavras ou pedaços de caracteres, ou dividir um documento grande em pedaços menores antes de poder usar esse conteúdo com algumas ações. Por exemplo, as ações IA do Azure Search ou Azure OpenAI esperam entrada tokenizada e podem lidar apenas com um número limitado de tokens.
Para esses cenários, utilize as ações Operações de Dados denominadas Analisar um documento e Pedaço de texto no fluxo de trabalho da aplicação lógica Standard. Essas ações transformam respectivamente o conteúdo, como um documento PDF, arquivo CSV, arquivo Excel e assim por diante, em saída de cadeia de caracteres tokenizada e, em seguida, dividem a cadeia de caracteres em partes, com base no número de tokens. Você pode então referenciar e usar essas saídas com ações subsequentes em seu fluxo de trabalho.
Dica
Para saber mais, você pode fazer estas perguntas ao Copilot no Azure:
- O que é um token em IA?
- O que é entrada tokenizada?
- O que é saída de cadeia de caracteres tokenizada?
- O que é análise em IA?
- O que é fragmentação em IA?
Para localizar o Copilot no Azure, na barra de ferramentas do portal do Azure, selecione Copilot.
Esse guia prático mostra como adicionar e configurar essas operações em seu fluxo de trabalho.
Pré-requisitos
Uma conta e uma assinatura do Azure. Se você não tiver uma assinatura do Azure, inscreva-se em uma conta gratuita do Azure.
Um fluxo de trabalho de aplicativo lógico padrão com um gatilho existente porque as operações Analisar um documento e Texto em partes estão disponíveis apenas como ações. Certifique-se de que a ação que recupera o conteúdo que você deseja analisar ou fragmentar precede essas operações de dados.
Analisar um documento
A ação Analisar um documento converte conteúdo, como um documento PDF, arquivo CSV, arquivo Excel e assim por diante, em uma cadeia de caracteres tokenizada. Para esse exemplo, suponha que seu fluxo de trabalho comece com o gatilho Solicitação denominado Quando uma solicitação HTTP é recebida. Esse gatilho aguarda para receber uma solicitação HTTP enviado de outro componente, como uma função Azure, outro fluxo de trabalho de aplicação lógica, e assim por diante. A solicitação HTTP inclui a URL de um novo documento carregado que está disponível para o fluxo de trabalho recuperar e analisar. Uma ação HTTP segue imediatamente o gatilho e envia uma solicitação HTTP para a URL do documento e retorna com o conteúdo do documento de seu local de armazenamento.
Se utilizar outras fontes de conteúdo, como o Armazenamento de Blobs do Azure, o SharePoint, o OneDrive, o Sistema de Ficheiros, o FTP e assim por diante, pode verificar se os gatilhos estão disponíveis para essas fontes. Você também pode verificar se as ações estão disponíveis para recuperar o conteúdo dessas fontes. Para obter mais informações, veja Operações integradas e Conectores gerenciados.
No portal do Azure, abra o recurso de aplicativo lógico Standard e o fluxo de trabalho no designer.
No gatilho e nas ações existentes, siga essas etapas gerais para adicionar a ação Operações de dados chamada Analisar um documentoao seu fluxo de trabalho.
No designer, selecione a ação Analisar um documento.
Depois que o painel de informações da ação for aberto, na guia Parâmetros, na propriedade Conteúdo do Documento, especifique o conteúdo a ser analisado seguindo essas etapas:
Selecione dentro da caixa Conteúdo do Documento.
Aparecem as opções da lista de conteúdo dinâmico (ícone de relâmpago) e do editor de expressões (ícone de função).
Para escolher a saída de uma ação anterior, selecione a lista de conteúdo dinâmico.
Para criar uma expressão que manipule a saída de uma ação anterior, selecione o editor de expressão.
Esse exemplo continua selecionando o ícone de relâmpago para a lista de conteúdo dinâmico.
Depois que a lista de conteúdo dinâmico for aberta, selecione a saída desejada de uma operação anterior.
Nesse exemplo, a ação Analisar um documento faz referência à saída Body da ação HTTP.
A saída Body agora aparece na caixa Conteúdo do documento:
Na ação Analisar um documento, adicione as ações que deseja trabalhar com a saída de cadeia de caracteres tokenizada, por exemplo, Texto em partes, que esse guia descreve posteriormente.
Analisar um documento - Referência
Parâmetros
Nome | Valor | Tipo de dados | Descrição | Limite |
---|---|---|---|---|
Conteúdo do documento | <conteúdo para analisar> | Qualquer | O conteúdo a ser analisado. | Nenhum |
Saídas
Nome | Tipo de dados | Descrição |
---|---|---|
Texto do resultado analisado | Matriz de cadeia de caracteres | Uma matriz de cadeias de caracteres. |
Resultado analisado | Objeto | Um objeto que contém todo o texto analisado. |
Texto em partes
A ação Texto em partes divide o conteúdo em partes menores para ações subsequentes para uso mais fácil no fluxo de trabalho atual. As etapas a seguir baseiam-se no exemplo da seção Analisar um documento e dividem a saída de cadeia de token para uso com operações de IA do Azure que esperam pequenos pedaços de conteúdo tokenizados.
Observação
As ações anteriores que usam fragmentação não afetam a ação Texto em partes, nem a ação Texto em partes afeta as ações subsequentes que usam fragmentação.
No portal do Azure, abra o recurso de aplicativo lógico Standard e o fluxo de trabalho no designer.
Na ação Analisar um documento, siga essas etapas gerais para adicionar a ação Operações de dados chamada Texto em pedaços.
No designer, selecione a ação Texto em partes.
Depois que o painel de informações da ação abrir, na guia Parâmetros, para a propriedade Chunking Strategy, selecione TokenSize como o método de fragmentação, se ainda não estiver selecionado.
Estratégia Descrição TokenSize Divida o conteúdo especificado com base no número de tokens. Depois de selecionar a estratégia, selecione dentro da caixa Texto para especificar o conteúdo do agrupamento.
Aparecem as opções da lista de conteúdo dinâmico (ícone de relâmpago) e do editor de expressões (ícone de função).
Para escolher a saída de uma ação anterior, selecione a lista de conteúdo dinâmico.
Para criar uma expressão que manipule a saída de uma ação anterior, selecione o editor de expressão.
Esse exemplo continua selecionando o ícone de relâmpago para a lista de conteúdo dinâmico.
Conclua a configuração da ação de Texto em partes, com base na estratégia e no cenário selecionados. Para obter mais informações, veja Pedaço de texto - Referência.
Agora, quando você adiciona outras ações que esperam e usam entrada tokenizada, como as ações de IA do Azure, o conteúdo de entrada é formatado para facilitar o consumo.
Texto em partes - Referência
Parâmetros
Nome | Valor | Tipo de dados | Descrição | Limites |
---|---|---|---|---|
Estratégia de fragmentação | TokenSize | Enumeração de cadeia de caracteres | Divida o conteúdo com base no número de tokens. Padrão: TokenSize |
Não aplicável |
Text | <conteúdo por partes> | Qualquer | O conteúdo a ser fragmentado. | Veja -Limites e guia de referência de configuração |
EncodingModel | <método de codificação> | Enumeração de cadeia de caracteres | O modelo de codificação a ser usado: - Padrão: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo) - r50k_base (gpt-3) - p50k_base (gpt-3) - p50k_edit (gpt-3) - cl200k_base (gpt-4o) Para obter mais informações, veja OpenAI – Visão geral dos modelos. |
Não aplicável |
TokenSize | <máximo de tokens por pedaço> | Inteiro | O número máximo de tokens por bloco de conteúdo. Padrão: nenhum |
Mínimo: 1 Máximo: 8000 |
PageOverlapLength | <número de caracteres sobrepostos> | Inteiro | O número de caracteres do final do bloco anterior a serem incluídos no próximo bloco. Essa configuração ajuda a evitar a perda de informações importantes ao dividir o conteúdo em partes e preserva a continuidade e o contexto entre as partes. Padrão: 0 - Não existem caracteres sobrepostos. |
Mínimo: 0 |
Dica
Para saber mais, você pode fazer estas perguntas ao Copilot no Azure:
- O que é PageOverlapLength em fragmentação?
- O que é codificação no IA do Azure?
Para localizar o Copilot no Azure, na barra de ferramentas do portal do Azure, selecione Copilot.
Saídas
Nome | Tipo de dados | Descrição |
---|---|---|
Resultado fragmentado Itens de texto | Matriz de cadeia de caracteres | Uma matriz de cadeias de caracteres. |
Resultado fragmentado Itens de texto Item | String | Uma única cadeia de caracteres na matriz. |
Resultado fragmentado | Objeto | Um objeto que contém todo o texto fragmentado. |
Fluxo de trabalho de exemplo
O exemplo a seguir inclui outras ações que criam um padrão de fluxo de trabalho completo para ingerir dados de qualquer origem:
Etapa | Tarefa | Operação subjacente | Descrição |
---|---|---|---|
1 | Aguarde ou verifique se há novo conteúdo. | Quando uma solicitação HTTP é recebida | Um gatilho que sonda ou aguarda a chegada de novos dados, com base em uma recorrência agendada ou em resposta a eventos específicos, respectivamente. Esse evento pode ser um novo arquivo carregado em um sistema de armazenamento específico, como Armazenamento de Blobs do Azure, SharePoint, OneDrive, Sistema de Arquivos, FTP e assim por diante. Neste exemplo, a operação de gatilho Request aguarda uma solicitação HTTP ou HTTPS enviada de outro ponto de extremidade. A solicitação inclui a URL de um novo documento carregado. |
2 | Obtenha o conteúdo. | HTTP | Uma ação HTTP que recupera o documento carregado usando a URL do arquivo da saída do gatilho. |
3 | Compor detalhes do documento. | Redigir | Uma ação Data Operations que concatena vários itens. Este exemplo concatena informações chave-valor sobre o documento. |
4 | Crie uma cadeia de caracteres de tokens. | Analisar um documento | Uma ação Operações de Dados que produz uma cadeia de caracteres tokenizada usando a saída da ação Redigir. |
5 | Crie pedaços de conteúdo. | Texto em partes | Uma ação de Operações de dados que divide a cadeia de caracteres de token em partes, com base no número de tokens por bloco de conteúdo. |
6 | Converta texto tokenizado e fragmentado em JSON. | Analisar JSON | Uma ação de Operações de Dados que converte a saída fragmentada em uma matriz JSON. |
7 | Selecionar itens da matriz JSON. | Selecionar | Uma ação Data Operations que seleciona vários itens da matriz JSON. |
8 | Gerar os embeddings. | Obter vários embeddings | Uma ação Azure OpenAI que cria embeddings para cada item da matriz JSON. |
9 | Selecione embeddings e outras informações. | Selecionar | Uma ação Data Operations que seleciona embeddings e outras informações de documento. |
10 | Indexar os dados. | Indexar documentos | Uma ação Azure AI Search que indexa os dados com base em cada embedding selecionado. |