Compartilhar via


Ações do PDF

As ações de PDF permitem extrair imagens, texto e tabelas de arquivos PDF e organizar páginas para criar novos documentos.

Para extrair texto de um arquivo PDF, use a ação Extrair texto do PDF. O exemplo a seguir extrai texto de um intervalo específico de páginas de um arquivo protegido por senha. A senha é especificada nas configurações Avançadas.

Para extrair textos organizados em forma de tabela, ative a opção Otimizar para dados estruturados para melhorar o formato e a precisão dos resultados.

Captura de tela da ação Extrair texto do PDF.

Para extrair tabelas de um arquivo PDF, implemente a ação Extrair tabelas do PDF, selecione o arquivo e especifique as páginas das quais extrair.

A ação produz uma variável chamada ExtractedPDFTables que contém uma lista de informações da tabela PDF. Para encontrar informações sobre esse tipo de lista, acesse Tipos de dados avançados.

Observação

  • A ação Extrair tabelas do PDF não usa o reconhecimento óptico de caracteres (OCR), portanto, não é possível extrair texto não copiável de PDFs digitalizados.
  • Ocasionalmente, a biblioteca por trás da ação extrai dados PDF adicionais que não são tabelas. Essa funcionalidade minimiza o risco de omitir uma tabela real acidentalmente.

Captura de tela da ação Extrair tabelas do PDF.

Além de extrair informações de arquivos PDF, você pode criar um novo documento PDF a partir de um arquivo existente usando a ação Extrair páginas do arquivo PDF para o novo arquivo PDF.

O exemplo a seguir seleciona uma combinação de páginas específicas e um intervalo de páginas.

Captura de tela da ação Extrair páginas do arquivo PDF para o novo arquivo PDF.

Extrair texto do PDF

Você pode extrair texto de um arquivo PDF, usando a ação "Extrair texto do PDF". Nas propriedades da ação você pode definir o arquivo PDF de origem e as páginas das quais o texto deve ser extraído. Nas propriedades avançadas da ação você pode definir uma senha caso o arquivo PDF esteja protegido e se o mecanismo deve otimizar para dados estruturados ou não.

Parâmetros de entrada

Argumento Opcional Aceita Valor padrão Description
PDF file Não Arquivo O arquivo PDF do qual extrair texto. Inserir um caminho de arquivo, uma variável que contenha um arquivo ou um caminho de texto
Páginas a serem extraídas N/D Todas, Única, Intervalo Todos Especifica quantas páginas a serem extraídas: todas as páginas, uma página única ou um intervalo de páginas
Single page number Não Valor numérico O número da página única da qual o texto será extraído
From page number Não Valor numérico O número da primeira página do intervalo de páginas das quais extrair texto
To page number Não Valor numérico O número da última página do intervalo de páginas das quais extrair texto
Senha Sim Entrada direta criptografada ou Valor do texto A senha do arquivo PDF. Deixe em branco se o PDF não for protegido por senha
Otimizar para dados estruturados N/D Valor booliano Falso Especifique se o layout formatado deve ser detectado no documento e extrair o texto adequadamente

Variáveis produzidas

Argumento Type Description
ExtractedPDFText Valor do texto O texto extraído

Exceções

Exceção Descrição
PDF file doesn't exist O arquivo não existe no caminho fornecido
Invalid password A senha fornecida é inválida
Não foi possível extrair o texto Erro ao tentar extrair texto

Extrair tabelas do PDF

Você pode extrair tabelas contidas em um arquivo PDF usando a ação Extrair tabelas do PDF. Nas propriedades da ação você pode definir o arquivo PDF e o intervalo de páginas dos quais as tabelas serão extraídas. Nas propriedades avançadas da ação você pode definir uma senha caso o arquivo PDF esteja protegido, definir se a tabela possui cabeçalhos ou não e, finalmente, se as tabelas que cruzam as margens da página devem ser mescladas ou não.

Parâmetros de entrada

Argumento Opcional Aceita Valor padrão Description
Arquivo PDF Não Arquivo O arquivo PDF do qual extrair tabelas. Inserir um caminho de arquivo, uma variável que contenha um arquivo ou um caminho de texto
Páginas a serem extraídas N/A Todos, Único, Intervalo Todos Especifica de quantas páginas serão extraídas tabelas: todas as páginas, uma única página ou um intervalo de páginas
Número da página única Não Valor numérico O número de uma única página da qual extrair tabelas
Número da página inicial Não Valor numérico O número da primeira página do intervalo de páginas das quais extrair tabelas
Número da página final Não Valor numérico O número da última página do intervalo de páginas das quais extrair tabelas
Senha Sim Entrada direta criptografada ou Valor do texto A senha do arquivo PDF. Deixe em branco se o PDF não for protegido por senha
Mesclar tabelas que estão entre as margens da página N/A Valor booliano Verdadeiro Especifica se as tabelas que podem ser mescladas ou não entre as margens da página no intervalo de páginas especificado
A primeira linha contém os nomes das colunas N/A Valor booliano Verdadeiro Especifica se a primeira linha da tabela contém os nomes das colunas

Variáveis produzidas

Argumento Type Description
ExtractedPDFTables Lista de informações da tabela PDF As tabelas extraídas com suas informações como uma lista

Exceções

Exceção Descrição
O arquivo PDF não existe O arquivo não existe no caminho fornecido
Senha inválida A senha fornecida é inválida
Falha ao extrair tabelas Erro ao tentar extrair tabelas

Extrair imagens do PDF

Para extrair imagens de um arquivo PDF, você pode usar a ação Extrair imagens do PDF. Nos parâmetros de ação você pode definir o arquivo PDF e as páginas das quais extrair as imagens, a convenção de nomenclatura das imagens extraídas e o local de destino das imagens salvas. Você também pode definir uma senha se o arquivo PDF estiver protegido nas configurações avançadas.

Parâmetros de entrada

Argumento Opcional Aceita Valor padrão Description
PDF file Não Arquivo O arquivo PDF do qual extrair imagens. Insira um caminho de arquivo, uma variável que contenha um arquivo ou um caminho de texto
Senha Sim Entrada direta criptografada ou Valor do texto A senha do arquivo PDF. Deixe em branco se o PDF não for protegido por senha
Page(s) to extract N/D Todos, Único, Intervalo Todas Especifica quantas páginas a serem extraídas: todas as páginas, uma página única ou um intervalo de páginas
Single page number Não Valor numérico O número da página única da qual extrair imagens
From page number Não Valor numérico O número da primeira página do intervalo de páginas das quais extrair imagens
To page number Não Valor numérico O número da última página do intervalo de páginas das quais extrair imagens
Image(s) name Não Valor do texto Como é iniciado o nome da(s) imagem(ns). Exemplo de nome da(s) imagem(ns) extraída(s): GivenName_1, GivenName_2
Save image(s) to Não Pasta A pasta na qual salvar as imagens extraídas como arquivos PNG

Variáveis produzidas

Essa ação não produz variáveis.

Exceções

Exceção Description
Senha inválida A senha fornecida é inválida
Falha ao extrair as imagens Indica que ocorreu um erro ao extrair imagens das páginas fornecidas do PDF
A pasta não existe Indica que a pasta não existe
O arquivo PDF não existe O arquivo não existe no caminho fornecido

Extrair páginas do arquivo PDF para o novo arquivo PDF

Você pode criar um novo arquivo PDF extraindo páginas de um arquivo PDF existente, usando a ação Extrair páginas de um arquivo PDF para um novo arquivo PDF. Nos parâmetros da ação você pode definir o arquivo PDF do qual extrair as páginas, as páginas a serem extraídas, a localização do novo arquivo PDF e o que deve acontecer se já existir um arquivo com o mesmo nome e extensão. Finalmente, nas propriedades avançadas você pode definir uma senha, caso o PDF de origem esteja protegido.

Parâmetros de entrada

Argumento Opcional Aceita Valor padrão Description
Arquivo PDF Não Arquivo O arquivo PDF do qual extrair páginas. Insira um caminho de arquivo, uma variável que contenha um arquivo ou um caminho de texto
Senha Sim Entrada direta criptografada ou Valor do texto A senha do arquivo PDF. Deixe em branco se o PDF não for protegido por senha
Seleção de página Não Valor do texto Os números de índice das páginas a serem mantidas (por exemplo, 1,3,17-24)
Caminho PDF extraído Não Arquivo O caminho no qual o arquivo PDF extraído será armazenado
Se o arquivo existir N/D Substituir, Não substituir, Adicionar sufixo sequencial Adicionar sufixo sequencial Especifica o que fazer se o arquivo PDF de saída já existir

Variáveis produzidas

Argumento Type Description
ExtractedPDF Arquivo O novo arquivo PDF

Exceções

Exceção Descrição
Senha inválida A senha fornecida é inválida
O arquivo PDF não existe O arquivo não existe no caminho fornecido
Página fora dos limites Indica que uma ou mais páginas estão fora dos limites do arquivo PDF
Seleção de página inválida Indica que as páginas fornecidas não são válidas para o arquivo PDF
Falha ao extrair novo PDF Indica que ocorreu um erro ao tentar extrair um novo PDF

Mesclar arquivos PDF

Mescla vários arquivos PDF em um novo.

Você pode usar a ação Mesclar arquivos PDF para pegar dois ou mais arquivos PDF e mesclá-los em um único arquivo. Os arquivos a serem mesclados podem ser fornecidos no formato de uma lista ou entre aspas duplas e separados por um delimitador. Você também pode fornecer senhas para os arquivos PDF, caso sejam protegidos por senha.

Parâmetros de entrada

Argumento Opcional Aceita Valor padrão Description
Arquivos PDF Não Lista de Arquivos Os arquivos a mesclar. Incluir vários arquivos entre aspas duplas (") e separá-los por um delimitador ou usar uma lista de arquivos
Caminho PDF mesclado Não Arquivo O caminho no qual o PDF mesclado será armazenado
Se o arquivo existir N/D Substituir, Não substituir, Adicionar sufixo sequencial Adicionar sufixo sequencial Especifica o que fazer se o arquivo de destino já existir
Senhas Sim Entrada direta criptografada ou Valor do texto As senhas delimitadas. A ordem deve ser igual à ordem dos PDFs de entrada. Deixe em branco se o PDFs não forem protegido por senha
Delimitador Não Valor do texto , Um delimitador de senha personalizado. Esse delimitador não deve ser parte de nenhuma das senhas

Variáveis produzidas

Argumento Type Description
MergedPDF Arquivo O arquivo PDF mesclado

Exceções

Exceção Descrição
O arquivo PDF não existe O arquivo não existe no caminho fornecido
Senha inválida A senha fornecida é inválida
Falha ao mesclar arquivos PDF Indica que ocorreu um erro ao mesclar os arquivos