Partilhar via


Ações da PDF

As ações PDF permitem extrair imagens, texto e tabelas de ficheiros PDF e ordenar as páginas para criar novos documentos.

Para extrair texto de um ficheiro PDF, utilize a ação Extrair texto de PDF. O exemplo seguinte extrai texto de uma intervalo específico de páginas de um ficheiro protegido por palavra-passe. A palavra-passe é especificada nas definições Avançadas.

Para extrair textos ordenados num formulário tabular, ative Otimizar para dados estruturados para melhorar o formato e a precisão dos resultados.

Captura de ecrã da ação Extrair texto de PDF.

Para extrair tabelas de um ficheiro PDF, implemente a ação Extrair tabelas de PDF, selecione o ficheiro e especifique as páginas a extrair.

A ação produz a variável ExtractedPDFTables que contém uma lista de informações da tabela PDF. Para obter informações sobre este tipo de lista, aceda a Tipos de dados avançados.

Nota

  • A ação Extrair tabelas do PDF não utiliza o Reconhecimento Ótico de Carateres (OCR), pelo que não é possível extrair texto não copiável de PDFs digitalizados.
  • Ocasionalmente, a biblioteca por trás da ação extrai dados PDF adicionais que não são tabelas. Esta funcionalidade minimiza o risco de omitir acidentalmente uma tabela real.

Captura de ecrã da ação Extrair tabelas de PDF.

Além de extrair informações de ficheiros PDF, pode criar um novo documento PDF a partir de um ficheiro existente utilizando a ação Extrair páginas de ficheiros PDF para um novo ficheiro PDF.

O exemplo seguinte selecione uma combinação de páginas específicas e um intervalo de páginas.

Captura de ecrã da ação Extrair páginas de ficheiros PDF para um novo ficheiro PDF.

Extrair texto de PDF

Pode extrair texto de um ficheiro PDF através da ação "Extrair texto de PDF". Nas propriedades da ação, pode definir o ficheiro PDF de origem e as páginas das quais o texto deve ser extraído. Nas propriedades de ação avançada, pode definir uma palavra-passe caso o ficheiro PDF esteja protegido e se o mecanismo deve otimizar dados estruturados ou não.

Parâmetros de entrada

Argumento Opcional Aceita Valor Predefinido Descrição
PDF file Não Ficheiro O ficheiro PDF do qual extrair texto. Introduza um caminho de ficheiro, uma variável que contenha um ficheiro ou um caminho de texto
Página(s) a extrair N/D Tudo, Único, Intervalo Tudo Especifica quantas páginas devem ser extraídas: Todas as páginas, uma página única ou um intervalo de páginas
Single page number Não Valor numérico O número da página única a partir da qual o texto deve ser extraído
From page number Não Valor numérico O número da primeira página do intervalo de páginas a partir do qual o texto deve ser extraído
To page number Não Valor numérico O número da última página do intervalo de páginas a partir do qual o texto deve ser extraído
Palavra-passe Sim Entrada direta encriptada ou Valor de texto A palavra-passe do ficheiro PDF. Deixe em branco se o PDF não estiver protegido por palavra-passe
Otimizar para dados estruturados N/D Valor booleano Falso Especificar se pretende detetar o esquema formatado no documento e extrair texto em conformidade

Variáveis produzidas

Argumento Tipo Descrição
ExtractedPDFText Valor de texto O texto extraído

Exceções

Exceção Descrição
O ficheiro PDF não existe O ficheiro não existe no caminho indicado
Palavra-passe inválida A palavra-passe indicada é inválida
Falha ao extrair texto Erro ao tentar extrair texto

Extrair tabelas do PDF

Pode extrair tabelas contidas num arquivo PDF através da ação Extrair tabelas do PDF. Nas propriedades da ação, pode definir o ficheiro PDF e o intervalo de páginas das quais as tabelas serão extraídas. Nas propriedades de ação avançadas, pode definir uma palavra-passe no caso de um ficheiro PDF estar protegido, definir se a tabela tem cabeçalhos ou não e, finalmente, se as tabelas que cruzam as margens da página devem ser unidas ou não.

Parâmetros de entrada

Argumento Opcional Aceita Valor Predefinido Descrição
Ficheiro PDF Não Ficheiro O ficheiro PDF do qual extrair tabelas. Introduza um caminho de ficheiro, uma variável que contenha um ficheiro ou um caminho de texto
Página(s) a extrair N/A Tudo, Único, Intervalo Tudo Especifica de quantas páginas devem ser extraídas tabelas: todas as páginas, uma página única ou um intervalo de páginas
Número de página única Não Valor numérico O número da página única a partir da qual as tabelas devem ser extraídas
Do número de página Não Valor numérico O número da primeira página do intervalo de páginas a partir do qual as tabelas devem ser extraídas
Ao número de página Não Valor numérico O número da última página do intervalo de páginas a partir do qual as tabelas devem ser extraídas
Palavra-passe Sim Entrada direta encriptada ou Valor de texto A palavra-passe do ficheiro PDF. Deixe em branco se o PDF não estiver protegido por palavra-passe
Intercalar tabelas que atravessam margens das páginas N/A Valor booleano Verdadeiro Especifica se pretende intercalar as tabelas que atravessam as margens das páginas no intervalo de páginas especificado
A primeira linha contém nomes de colunas N/A Valor booleano Verdadeiro Especifica se a primeira linha da tabela contém nomes de colunas

Variáveis produzidas

Argumento Tipo Descrição
ExtractedPDFTables Lista de informações de tabela PDF As tabelas extraídas com as respetivas informações como uma lista

Exceções

Exceção Descrição
O ficheiro PDF não existe O ficheiro não existe no caminho indicado
Palavra-passe inválida A palavra-passe indicada é inválida
Falha ao extrair tabelas Erro ao tentar extrair tabelas

Extrair imagens de PDF

Para extrair imagens de um ficheiro PDF, pode utilizar a ação Extrair imagens do PDF. Nos parâmetros de ação, pode definir o ficheiro PDF e as páginas das quais extrair imagens, a convenção de nomenclatura das imagens extraídas e a localização de destino das imagens guardadas. Também pode definir uma palavra-passe se o ficheiro PDF estiver protegido nas configurações avançadas.

Parâmetros de entrada

Argumento Opcional Aceita Valor Predefinido Descrição
PDF file Não Ficheiro O ficheiro PDF do qual extrair imagens. Introduza um caminho de ficheiro, uma variável que contenha um ficheiro ou um caminho de texto
Palavra-passe Sim Entrada direta encriptada ou Valor de texto A palavra-passe do ficheiro PDF. Deixe em branco se o PDF não estiver protegido por palavra-passe
Page(s) to extract N/D Tudo, Único, Intervalo Tudo Especifica quantas páginas devem ser extraídas: Todas as páginas, uma página única ou um intervalo de páginas
Single page number Não Valor numérico O número da página única a partir da qual as imagens devem ser extraídas
From page number Não Valor numérico O número da primeira página do intervalo de páginas a partir do qual as imagens devem ser extraídas
To page number Não Valor numérico O número da última página do intervalo de páginas a partir do qual as imagens devem ser extraídas
Image(s) name Não Valor de texto Como o nome das imagens começa. Exemplo de nome das imagens extraídas: NomeIndicado_1, NomeIndicado_2
Save image(s) to Não Pasta A pasta onde as imagens extraídas devem ser guardadas como ficheiros png

Variáveis produzidas

Esta ação não produz quaisquer variáveis.

Exceções

Exceção Descrição
Palavra-passe inválida A palavra-passe indicada é inválida
Falha ao extrair imagens Indica que ocorreu um erro ao extrair imagens das páginas do PDF indicadas
A pasta não existe Indica que a pasta não existe
O ficheiro PDF não existe O ficheiro não existe no caminho indicado

Extrair páginas de ficheiros PDF para um novo ficheiro PDF

Pode criar um novo ficheiro PDF ao extrair páginas de um ficheiro PDF existente ao utilizar a ação Páginas do ficheiro PDF para um novo ficheiro PDF. Nos parâmetros de ação pode definir o ficheiro PDF do qual extrair as páginas, as páginas a serem extraídas, a localização do novo ficheiro PDF e o que deve acontecer se um ficheiro com o mesmo nome e extensão já existir. Finalmente, nas propriedades avançadas, pode definir uma palavra-passe caso o PDF de origem esteja protegido.

Parâmetros de entrada

Argumento Opcional Aceita Valor Predefinido Descrição
PDF file Não Ficheiro O ficheiro PDF do qual extrair páginas. Introduza um caminho de ficheiro, uma variável que contenha um ficheiro ou um caminho de texto
Palavra-passe Sim Entrada direta encriptada ou Valor de texto A palavra-passe do ficheiro PDF. Deixe em branco se o PDF não estiver protegido por palavra-passe
Page selection Não Valor de texto Os números de índice das páginas a manter (por exemplo: 1, 3, 17-24)
Extracted PDF path Não Ficheiro O caminho no qual o ficheiro PDF extraído deve ser armazenado
If file exists N/D Substituir, Não substituir, Adicionar sufixo sequencial Adicionar sufixo sequencial Especifica o que fazer se o ficheiro PDF de destino já existir

Variáveis produzidas

Argumento Tipo Descrição
ExtractedPDF Ficheiro O novo ficheiro PDF

Exceções

Exceção Descrição
Palavra-passe inválida A palavra-passe indicada é inválida
O ficheiro PDF não existe O ficheiro não existe no caminho indicado
Página fora dos limites Indica que uma ou mais páginas estão fora dos limites do ficheiro PDF
Seleção de páginas inválida Indica que as páginas indicadas não são válidas para o ficheiro PDF
Falha ao extrair novo PDF Indica que ocorreu um erro ao tentar extrair novo PDF

Intercalar ficheiros PDF

Intervala vários ficheiros PDF num novo.

Pode utilizar a ação Unir ficheiros PDF para usar dois ou mais ficheiros PDF e uni-los num único ficheiro. Os ficheiros a unir podem ser fornecidos na forma de lista ou colocados entre aspas e separados por um delimitador. Também pode fornecer palavras-passe para os arquivos PDF, caso estejam protegidos por palavra-passe.

Parâmetros de entrada

Argumento Opcional Aceita Valor Predefinido Descrição
PDF files Não Lista de Ficheiros Os ficheiros a unir. Escreva vários ficheiros entre aspas (") e separe-os com um delimitador ou utilize uma lista de ficheiros
Merged PDF path Não Ficheiro O caminho no qual o ficheiro PDF intercalado deve ser armazenado
If file exists N/D Substituir, Não substituir, Adicionar sufixo sequencial Adicionar sufixo sequencial Especifica o que fazer se o ficheiro de destino já existir
Palavras-chave Sim Entrada direta encriptada ou Valor de texto As palavras-chave delimitadas. A ordem deve ser igual à ordem dos PDFs de entrada. Deixe em branco se o PDFs não estiver protegido por palavra-passe
Delimitador Não Valor de texto . Um delimitador de palavra-passe personalizado. Este delimitado não deve fazer parte de nenhuma das palavras-passe

Variáveis produzidas

Argumento Tipo Descrição
MergedPDF Ficheiro O ficheiro PDF intercalado

Exceções

Exceção Descrição
O ficheiro PDF não existe O ficheiro não existe no caminho indicado
Palavra-passe inválida A palavra-passe indicada é inválida
Falha ao intercalar ficheiros PDF Indica que ocorreu um erro ao tentar intercalar os ficheiros