Analisar ou fragmentar conteúdo para fluxos de trabalho padrão nos Aplicativos Lógicos do Azure (Visualização)
Aplica-se a: Aplicativos Lógicos do Azure (Padrão)
Importante
Esta funcionalidade está em pré-visualização e está sujeita aos Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure.
Às vezes, você tem que converter o conteúdo em tokens, que são palavras ou pedaços de caracteres, ou dividir um documento grande em partes menores antes de poder usar esse conteúdo com algumas ações. Por exemplo, as ações Azure AI Search ou Azure OpenAI esperam entrada tokenizada e podem lidar com apenas um número limitado de tokens.
Para esses cenários, use as ações de Operações de Dados denominadas Analisar um documento e Fragmentar texto no fluxo de trabalho do aplicativo lógico padrão. Essas ações, respectivamente, transformam conteúdo, como um documento PDF, arquivo CSV, arquivo Excel e assim por diante, em saída de cadeia de caracteres tokenizada e, em seguida, dividem a cadeia de caracteres em partes, com base no número de tokens. Em seguida, você pode fazer referência e usar essas saídas com ações subsequentes em seu fluxo de trabalho.
Gorjeta
Para saber mais, você pode fazer estas perguntas ao Azure Copilot:
- O que é um token na IA?
- O que é entrada tokenizada?
- O que é saída de cadeia de caracteres tokenizada?
- O que é a análise em IA?
- O que é fragmentação na IA?
Para localizar o Azure Copilot, na barra de ferramentas do portal do Azure, selecione Copilot.
Este guia de instruções mostra como adicionar e configurar essas operações em seu fluxo de trabalho.
Pré-requisitos
Uma conta e subscrição do Azure. Se não tiver uma subscrição do Azure, inscreva-se para obter uma conta do Azure gratuita.
Um fluxo de trabalho de aplicativo lógico padrão com um gatilho existente porque as operações Analisar um documento e Fragmentar texto estão disponíveis apenas como ações. Certifique-se de que a ação que recupera o conteúdo que você deseja analisar ou fragmentar precede essas operações de dados.
Analisar um documento
A ação Analisar um documento converte conteúdo, como um documento PDF, arquivo CSV, arquivo Excel e assim por diante, em uma cadeia de caracteres tokenizada. Para este exemplo, suponha que seu fluxo de trabalho comece com o gatilho de solicitação chamado Quando uma solicitação HTTP é recebida. Esse gatilho aguarda para receber uma solicitação HTTP enviada de outro componente, como uma função do Azure, outro fluxo de trabalho de aplicativo lógico e assim por diante. A solicitação HTTP inclui a URL de um novo documento carregado que está disponível para o fluxo de trabalho recuperar e analisar. Uma ação HTTP segue imediatamente o gatilho e envia uma solicitação HTTP para a URL do documento e retorna com o conteúdo do documento de seu local de armazenamento.
Se você usar outras fontes de conteúdo, como Armazenamento de Blob do Azure, SharePoint, OneDrive, Sistema de Arquivos, FTP e assim por diante, poderá verificar se os gatilhos estão disponíveis para essas fontes. Você também pode verificar se há ações disponíveis para recuperar o conteúdo dessas fontes. Para obter mais informações, consulte Operações internas e conectores gerenciados.
No portal do Azure, abra o recurso e o fluxo de trabalho do aplicativo lógico padrão no designer.
Sob o gatilho e as ações existentes, siga estas etapas gerais para adicionar a ação de Operações de Dados chamada Analisar um documento ao seu fluxo de trabalho.
No designer, selecione a ação Analisar um documento .
Depois que o painel de informações da ação for aberto, na guia Parâmetros, na propriedade Conteúdo do Documento, especifique o conteúdo a ser analisado seguindo estas etapas:
Selecione dentro da caixa Conteúdo do documento .
As opções para a lista de conteúdo dinâmico (ícone relâmpago) e o editor de expressões (ícone de função) são exibidas.
Para escolher a saída de uma ação anterior, selecione a lista de conteúdo dinâmico.
Para criar uma expressão que manipule a saída de uma ação anterior, selecione o editor de expressão.
Este exemplo continua selecionando o ícone de relâmpago para a lista de conteúdo dinâmico.
Depois que a lista de conteúdo dinâmico for aberta, selecione a saída desejada de uma operação anterior.
Neste exemplo, a ação Analisar um documento faz referência à saída Corpo da ação HTTP.
A saída Corpo agora aparece na caixa Conteúdo do documento:
Na ação Analisar um documento, adicione as ações que você deseja trabalhar com a saída de cadeia de caracteres tokenizada, por exemplo, Texto em bloco, que este guia descreve mais tarde.
Analisar um documento - Referência
Parâmetros
Nome | Valor | Tipo de dados | Description | Limite |
---|---|---|---|---|
Conteúdo do documento | <conteúdo a analisar> | Qualquer | O conteúdo a analisar. | Nenhuma |
Saídas
Name | Tipo de dados | Description |
---|---|---|
Texto do resultado analisado | Matriz de cadeias de carateres | Uma matriz de cadeias de caracteres. |
Resultado analisado | Object | Um objeto que contém todo o texto analisado. |
Fragmentar texto
A ação Fragmentar texto divide o conteúdo em partes menores para ações subsequentes para uso mais fácil no fluxo de trabalho atual. As etapas a seguir se baseiam no exemplo da seção Analisar um documento e dividem a saída da cadeia de caracteres de token para uso com operações de IA do Azure que esperam pequenos blocos de conteúdo tokenizados.
Nota
As ações anteriores que usam fragmentação não afetam a ação Fragmentar texto , nem a ação Fragmentar texto afeta as ações subsequentes que usam fragmentação.
No portal do Azure, abra o recurso e o fluxo de trabalho do aplicativo lógico padrão no designer.
Na ação Analisar um documento, siga estas etapas gerais para adicionar a ação Operações de Dados chamada Fragmentar texto.
No designer, selecione a ação Fragmentar texto .
Depois que o painel de informações da ação for aberto, na guia Parâmetros , para a propriedade Estratégia de Fragmentação , selecione TokenSize como o método de fragmentação, se ainda não estiver selecionado.
Estratégia Description TokenSize Divida o conteúdo especificado, com base no número de tokens. Depois de selecionar a estratégia, selecione dentro da caixa Texto para especificar o conteúdo para fragmentação.
As opções para a lista de conteúdo dinâmico (ícone relâmpago) e o editor de expressões (ícone de função) são exibidas.
Para escolher a saída de uma ação anterior, selecione a lista de conteúdo dinâmico.
Para criar uma expressão que manipule a saída de uma ação anterior, selecione o editor de expressão.
Este exemplo continua selecionando o ícone de relâmpago para a lista de conteúdo dinâmico.
Conclua a configuração para a ação Fragmentar texto , com base na estratégia e no cenário selecionados. Para obter mais informações, consulte Texto em bloco - Referência.
Agora, quando você adiciona outras ações que esperam e usam entrada tokenizada, como as ações de IA do Azure, o conteúdo de entrada é formatado para facilitar o consumo.
Fragmentar texto - Referência
Parâmetros
Nome | Valor | Tipo de dados | Description | Limites |
---|---|---|---|---|
Estratégia de Chunking | TokenSize | Enum de corda | Divida o conteúdo, com base no número de tokens. Padrão: TokenSize |
Não aplicável |
Texto | <conteúdo para fragmento> | Qualquer | O conteúdo a ser fragmentado. | Consulte Limites e guia de referência de configuração |
Modelo de codificação | <método de codificação> | Enum de corda | O modelo de codificação a ser usado: - Padrão: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo) - r50k_base (GPT-3) - p50k_base (GPT-3) - p50k_edit (GPT-3) - cl200k_base (GPT-4O) Para obter mais informações, consulte OpenAI - Visão geral de modelos. |
Não aplicável |
TokenSize | <max-tokens-por-chunk> | Número inteiro | O número máximo de tokens por bloco de conteúdo. Padrão: Nenhum |
Mínimo: 1 Máximo: 8000 |
PageOverlapLength | <número de carateres sobrepostos> | Número inteiro | O número de caracteres do final do bloco anterior a serem incluídos no próximo bloco. Essa configuração ajuda a evitar a perda de informações importantes ao dividir o conteúdo em partes e preserva a continuidade e o contexto entre partes. Padrão: 0 - Não há caracteres sobrepostos. |
Mínimo: 0 |
Gorjeta
Para saber mais, você pode fazer estas perguntas ao Azure Copilot:
- O que é PageOverlapLength em chunking?
- O que é a codificação na IA do Azure?
Para localizar o Azure Copilot, na barra de ferramentas do portal do Azure, selecione Copilot.
Saídas
Name | Tipo de dados | Description |
---|---|---|
Itens de texto do resultado fragmentado | Matriz de cadeias de carateres | Uma matriz de cadeias de caracteres. |
Item de itens de texto de resultado fragmentado | String | Uma única cadeia de caracteres na matriz. |
Resultado chunked | Object | Um objeto que contém todo o texto em partes. |
Exemplo de fluxo de trabalho
O exemplo a seguir inclui outras ações que criam um padrão de fluxo de trabalho completo para ingerir dados de qualquer fonte:
Passo | Tarefa | Operação subjacente | Description |
---|---|---|---|
5 | Aguarde ou verifique se há novos conteúdos. | Quando uma solicitação HTTP é recebida | Um gatilho que sonda ou aguarda a chegada de novos dados, seja com base em uma recorrência programada ou em resposta a eventos específicos, respectivamente. Esse evento pode ser um novo arquivo carregado em um sistema de armazenamento específico, como o Armazenamento de Blobs do Azure, SharePoint, OneDrive, Sistema de Arquivos, FTP e assim por diante. Neste exemplo, a operação de gatilho Request aguarda uma solicitação HTTP ou HTTPS enviada de outro ponto de extremidade. O pedido inclui o URL de um novo documento carregado. |
2 | Obtenha o conteúdo. | HTTP | Uma ação HTTP que recupera o documento carregado usando a URL do arquivo da saída do gatilho. |
3 | Redigir detalhes do documento. | Compose | Uma ação de Operações de Dados que concatena vários itens. Este exemplo concatena informações de chave-valor sobre o documento. |
4 | Crie uma cadeia de caracteres de token. | Analisar um documento | Uma ação de Operações de Dados que produz uma cadeia de caracteres tokenizada usando a saída da ação Compor . |
5 | Crie blocos de conteúdo. | Fragmentar texto | Uma ação de Operações de Dados que divide a cadeia de caracteres de token em partes, com base no número de tokens por bloco de conteúdo. |
6 | Converta texto tokenizado e fragmentado em JSON. | Analisar JSON | Uma ação de Operações de Dados que converte a saída em partes em uma matriz JSON. |
7 | Selecione itens de matriz JSON. | Selecionar | Uma ação de Operações de Dados que seleciona vários itens da matriz JSON. |
8 | Gere as incorporações. | Obtenha várias incorporações | Uma ação do Azure OpenAI que cria incorporações para cada item de matriz JSON. |
9 | Selecione incorporações e outras informações. | Selecionar | Uma ação de Operações de Dados que seleciona incorporações e outras informações do documento. |
10 | Indexe os dados. | Documentos de índice | Uma ação do Azure AI Search que indexa os dados com base em cada incorporação selecionada. |