Partilhar via


Analisar ou fragmentar conteúdo para fluxos de trabalho padrão nos Aplicativos Lógicos do Azure (Visualização)

Aplica-se a: Aplicativos Lógicos do Azure (Padrão)

Importante

Esta funcionalidade está em pré-visualização e está sujeita aos Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure.

Às vezes, você tem que converter o conteúdo em tokens, que são palavras ou pedaços de caracteres, ou dividir um documento grande em partes menores antes de poder usar esse conteúdo com algumas ações. Por exemplo, as ações Azure AI Search ou Azure OpenAI esperam entrada tokenizada e podem lidar com apenas um número limitado de tokens.

Para esses cenários, use as ações de Operações de Dados denominadas Analisar um documento e Fragmentar texto no fluxo de trabalho do aplicativo lógico padrão. Essas ações, respectivamente, transformam conteúdo, como um documento PDF, arquivo CSV, arquivo Excel e assim por diante, em saída de cadeia de caracteres tokenizada e, em seguida, dividem a cadeia de caracteres em partes, com base no número de tokens. Em seguida, você pode fazer referência e usar essas saídas com ações subsequentes em seu fluxo de trabalho.

Gorjeta

Para saber mais, você pode fazer estas perguntas ao Azure Copilot:

  • O que é um token na IA?
  • O que é entrada tokenizada?
  • O que é saída de cadeia de caracteres tokenizada?
  • O que é a análise em IA?
  • O que é fragmentação na IA?

Para localizar o Azure Copilot, na barra de ferramentas do portal do Azure, selecione Copilot.

Este guia de instruções mostra como adicionar e configurar essas operações em seu fluxo de trabalho.

Pré-requisitos

  • Uma conta e subscrição do Azure. Se não tiver uma subscrição do Azure, inscreva-se para obter uma conta do Azure gratuita.

  • Um fluxo de trabalho de aplicativo lógico padrão com um gatilho existente porque as operações Analisar um documento e Fragmentar texto estão disponíveis apenas como ações. Certifique-se de que a ação que recupera o conteúdo que você deseja analisar ou fragmentar precede essas operações de dados.

Analisar um documento

A ação Analisar um documento converte conteúdo, como um documento PDF, arquivo CSV, arquivo Excel e assim por diante, em uma cadeia de caracteres tokenizada. Para este exemplo, suponha que seu fluxo de trabalho comece com o gatilho de solicitação chamado Quando uma solicitação HTTP é recebida. Esse gatilho aguarda para receber uma solicitação HTTP enviada de outro componente, como uma função do Azure, outro fluxo de trabalho de aplicativo lógico e assim por diante. A solicitação HTTP inclui a URL de um novo documento carregado que está disponível para o fluxo de trabalho recuperar e analisar. Uma ação HTTP segue imediatamente o gatilho e envia uma solicitação HTTP para a URL do documento e retorna com o conteúdo do documento de seu local de armazenamento.

Se você usar outras fontes de conteúdo, como Armazenamento de Blob do Azure, SharePoint, OneDrive, Sistema de Arquivos, FTP e assim por diante, poderá verificar se os gatilhos estão disponíveis para essas fontes. Você também pode verificar se há ações disponíveis para recuperar o conteúdo dessas fontes. Para obter mais informações, consulte Operações internas e conectores gerenciados.

  1. No portal do Azure, abra o recurso e o fluxo de trabalho do aplicativo lógico padrão no designer.

  2. Sob o gatilho e as ações existentes, siga estas etapas gerais para adicionar a ação de Operações de Dados chamada Analisar um documento ao seu fluxo de trabalho.

  3. No designer, selecione a ação Analisar um documento .

  4. Depois que o painel de informações da ação for aberto, na guia Parâmetros, na propriedade Conteúdo do Documento, especifique o conteúdo a ser analisado seguindo estas etapas:

    1. Selecione dentro da caixa Conteúdo do documento .

      As opções para a lista de conteúdo dinâmico (ícone relâmpago) e o editor de expressões (ícone de função) são exibidas.

      • Para escolher a saída de uma ação anterior, selecione a lista de conteúdo dinâmico.

      • Para criar uma expressão que manipule a saída de uma ação anterior, selecione o editor de expressão.

      Este exemplo continua selecionando o ícone de relâmpago para a lista de conteúdo dinâmico.

    2. Depois que a lista de conteúdo dinâmico for aberta, selecione a saída desejada de uma operação anterior.

      Neste exemplo, a ação Analisar um documento faz referência à saída Corpo da ação HTTP.

      A captura de tela mostra o designer de fluxo de trabalho padrão e a ação chamada Analisar um documento com a lista de conteúdo dinâmico aberta. e selecionou Saída de corpo da ação HTTP.

      A saída Corpo agora aparece na caixa Conteúdo do documento:

      A captura de tela mostra o fluxo de trabalho de exemplo com a saída Corpo na ação chamada Analisar um documento.

  5. Na ação Analisar um documento, adicione as ações que você deseja trabalhar com a saída de cadeia de caracteres tokenizada, por exemplo, Texto em bloco, que este guia descreve mais tarde.

Analisar um documento - Referência

Parâmetros

Nome Valor Tipo de dados Description Limite
Conteúdo do documento <conteúdo a analisar> Qualquer O conteúdo a analisar. Nenhuma

Saídas

Name Tipo de dados Description
Texto do resultado analisado Matriz de cadeias de carateres Uma matriz de cadeias de caracteres.
Resultado analisado Object Um objeto que contém todo o texto analisado.

Fragmentar texto

A ação Fragmentar texto divide o conteúdo em partes menores para ações subsequentes para uso mais fácil no fluxo de trabalho atual. As etapas a seguir se baseiam no exemplo da seção Analisar um documento e dividem a saída da cadeia de caracteres de token para uso com operações de IA do Azure que esperam pequenos blocos de conteúdo tokenizados.

Nota

As ações anteriores que usam fragmentação não afetam a ação Fragmentar texto , nem a ação Fragmentar texto afeta as ações subsequentes que usam fragmentação.

  1. No portal do Azure, abra o recurso e o fluxo de trabalho do aplicativo lógico padrão no designer.

  2. Na ação Analisar um documento, siga estas etapas gerais para adicionar a ação Operações de Dados chamada Fragmentar texto.

  3. No designer, selecione a ação Fragmentar texto .

  4. Depois que o painel de informações da ação for aberto, na guia Parâmetros , para a propriedade Estratégia de Fragmentação , selecione TokenSize como o método de fragmentação, se ainda não estiver selecionado.

    Estratégia Description
    TokenSize Divida o conteúdo especificado, com base no número de tokens.
  5. Depois de selecionar a estratégia, selecione dentro da caixa Texto para especificar o conteúdo para fragmentação.

    As opções para a lista de conteúdo dinâmico (ícone relâmpago) e o editor de expressões (ícone de função) são exibidas.

    • Para escolher a saída de uma ação anterior, selecione a lista de conteúdo dinâmico.

    • Para criar uma expressão que manipule a saída de uma ação anterior, selecione o editor de expressão.

    Este exemplo continua selecionando o ícone de relâmpago para a lista de conteúdo dinâmico.

    1. Depois que a lista de conteúdo dinâmico for aberta, selecione a saída desejada de uma operação anterior.

      Neste exemplo, a ação Fragmentar texto faz referência à saída de texto de resultado analisado da ação Analisar um documento .

      A captura de tela mostra o designer de fluxo de trabalho padrão, a ação chamada Fragmentar texto com lista de conteúdo dinâmico aberta e a saída selecionada de Analisar uma ação de documento.

      A saída da ação de resultado analisado agora aparece na caixa Texto:

      A captura de tela mostra o fluxo de trabalho de exemplo com a saída de texto de resultado analisado selecionada na ação chamada Texto em bloco.

  6. Conclua a configuração para a ação Fragmentar texto , com base na estratégia e no cenário selecionados. Para obter mais informações, consulte Texto em bloco - Referência.

Agora, quando você adiciona outras ações que esperam e usam entrada tokenizada, como as ações de IA do Azure, o conteúdo de entrada é formatado para facilitar o consumo.

Fragmentar texto - Referência

Parâmetros

Nome Valor Tipo de dados Description Limites
Estratégia de Chunking TokenSize Enum de corda Divida o conteúdo, com base no número de tokens.

Padrão: TokenSize
Não aplicável
Texto <conteúdo para fragmento> Qualquer O conteúdo a ser fragmentado. Consulte Limites e guia de referência de configuração
Modelo de codificação <método de codificação> Enum de corda O modelo de codificação a ser usado:

- Padrão: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo)

- r50k_base (GPT-3)

- p50k_base (GPT-3)

- p50k_edit (GPT-3)

- cl200k_base (GPT-4O)

Para obter mais informações, consulte OpenAI - Visão geral de modelos.
Não aplicável
TokenSize <max-tokens-por-chunk> Número inteiro O número máximo de tokens por bloco de conteúdo.

Padrão: Nenhum
Mínimo: 1
Máximo: 8000
PageOverlapLength <número de carateres sobrepostos> Número inteiro O número de caracteres do final do bloco anterior a serem incluídos no próximo bloco. Essa configuração ajuda a evitar a perda de informações importantes ao dividir o conteúdo em partes e preserva a continuidade e o contexto entre partes.

Padrão: 0 - Não há caracteres sobrepostos.
Mínimo: 0

Gorjeta

Para saber mais, você pode fazer estas perguntas ao Azure Copilot:

  • O que é PageOverlapLength em chunking?
  • O que é a codificação na IA do Azure?

Para localizar o Azure Copilot, na barra de ferramentas do portal do Azure, selecione Copilot.

Saídas

Name Tipo de dados Description
Itens de texto do resultado fragmentado Matriz de cadeias de carateres Uma matriz de cadeias de caracteres.
Item de itens de texto de resultado fragmentado String Uma única cadeia de caracteres na matriz.
Resultado chunked Object Um objeto que contém todo o texto em partes.

Exemplo de fluxo de trabalho

O exemplo a seguir inclui outras ações que criam um padrão de fluxo de trabalho completo para ingerir dados de qualquer fonte:

A captura de tela mostra o fluxo de trabalho de exemplo completo.

Passo Tarefa Operação subjacente Description
5 Aguarde ou verifique se há novos conteúdos. Quando uma solicitação HTTP é recebida Um gatilho que sonda ou aguarda a chegada de novos dados, seja com base em uma recorrência programada ou em resposta a eventos específicos, respectivamente. Esse evento pode ser um novo arquivo carregado em um sistema de armazenamento específico, como o Armazenamento de Blobs do Azure, SharePoint, OneDrive, Sistema de Arquivos, FTP e assim por diante.

Neste exemplo, a operação de gatilho Request aguarda uma solicitação HTTP ou HTTPS enviada de outro ponto de extremidade. O pedido inclui o URL de um novo documento carregado.
2 Obtenha o conteúdo. HTTP Uma ação HTTP que recupera o documento carregado usando a URL do arquivo da saída do gatilho.
3 Redigir detalhes do documento. Compose Uma ação de Operações de Dados que concatena vários itens.

Este exemplo concatena informações de chave-valor sobre o documento.
4 Crie uma cadeia de caracteres de token. Analisar um documento Uma ação de Operações de Dados que produz uma cadeia de caracteres tokenizada usando a saída da ação Compor .
5 Crie blocos de conteúdo. Fragmentar texto Uma ação de Operações de Dados que divide a cadeia de caracteres de token em partes, com base no número de tokens por bloco de conteúdo.
6 Converta texto tokenizado e fragmentado em JSON. Analisar JSON Uma ação de Operações de Dados que converte a saída em partes em uma matriz JSON.
7 Selecione itens de matriz JSON. Selecionar Uma ação de Operações de Dados que seleciona vários itens da matriz JSON.
8 Gere as incorporações. Obtenha várias incorporações Uma ação do Azure OpenAI que cria incorporações para cada item de matriz JSON.
9 Selecione incorporações e outras informações. Selecionar Uma ação de Operações de Dados que seleciona incorporações e outras informações do documento.
10 Indexe os dados. Documentos de índice Uma ação do Azure AI Search que indexa os dados com base em cada incorporação selecionada.