Ações da PDF
As ações PDF permitem extrair imagens, texto e tabelas de ficheiros PDF e ordenar as páginas para criar novos documentos.
Para extrair texto de um ficheiro PDF, utilize a ação Extrair texto de PDF. O exemplo seguinte extrai texto de uma intervalo específico de páginas de um ficheiro protegido por palavra-passe. A palavra-passe é especificada nas definições Avançadas.
Para extrair textos ordenados num formulário tabular, ative Otimizar para dados estruturados para melhorar o formato e a precisão dos resultados.
Para extrair tabelas de um ficheiro PDF, implemente a ação Extrair tabelas de PDF, selecione o ficheiro e especifique as páginas a extrair.
A ação produz a variável ExtractedPDFTables que contém uma lista de informações da tabela PDF. Para obter informações sobre este tipo de lista, aceda a Tipos de dados avançados.
Nota
- A ação Extrair tabelas do PDF não utiliza o Reconhecimento Ótico de Carateres (OCR), pelo que não é possível extrair texto não copiável de PDFs digitalizados.
- Ocasionalmente, a biblioteca por trás da ação extrai dados PDF adicionais que não são tabelas. Esta funcionalidade minimiza o risco de omitir acidentalmente uma tabela real.
Além de extrair informações de ficheiros PDF, pode criar um novo documento PDF a partir de um ficheiro existente utilizando a ação Extrair páginas de ficheiros PDF para um novo ficheiro PDF.
O exemplo seguinte selecione uma combinação de páginas específicas e um intervalo de páginas.
Extrair texto de PDF
Pode extrair texto de um ficheiro PDF através da ação "Extrair texto de PDF". Nas propriedades da ação, pode definir o ficheiro PDF de origem e as páginas das quais o texto deve ser extraído. Nas propriedades de ação avançada, pode definir uma palavra-passe caso o ficheiro PDF esteja protegido e se o mecanismo deve otimizar dados estruturados ou não.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor Predefinido | Descrição |
---|---|---|---|---|
PDF file | Não | Ficheiro | O ficheiro PDF do qual extrair texto. Introduza um caminho de ficheiro, uma variável que contenha um ficheiro ou um caminho de texto | |
Página(s) a extrair | N/D | Tudo, Único, Intervalo | Tudo | Especifica quantas páginas devem ser extraídas: Todas as páginas, uma página única ou um intervalo de páginas |
Single page number | Não | Valor numérico | O número da página única a partir da qual o texto deve ser extraído | |
From page number | Não | Valor numérico | O número da primeira página do intervalo de páginas a partir do qual o texto deve ser extraído | |
To page number | Não | Valor numérico | O número da última página do intervalo de páginas a partir do qual o texto deve ser extraído | |
Palavra-passe | Sim | Entrada direta encriptada ou Valor de texto | A palavra-passe do ficheiro PDF. Deixe em branco se o PDF não estiver protegido por palavra-passe | |
Otimizar para dados estruturados | N/D | Valor booleano | Falso | Especificar se pretende detetar o esquema formatado no documento e extrair texto em conformidade |
Variáveis produzidas
Argumento | Tipo | Descrição |
---|---|---|
ExtractedPDFText | Valor de texto | O texto extraído |
Exceções
Exceção | Descrição |
---|---|
O ficheiro PDF não existe | O ficheiro não existe no caminho indicado |
Palavra-passe inválida | A palavra-passe indicada é inválida |
Falha ao extrair texto | Erro ao tentar extrair texto |
Extrair tabelas do PDF
Pode extrair tabelas contidas num arquivo PDF através da ação Extrair tabelas do PDF. Nas propriedades da ação, pode definir o ficheiro PDF e o intervalo de páginas das quais as tabelas serão extraídas. Nas propriedades de ação avançadas, pode definir uma palavra-passe no caso de um ficheiro PDF estar protegido, definir se a tabela tem cabeçalhos ou não e, finalmente, se as tabelas que cruzam as margens da página devem ser unidas ou não.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor Predefinido | Descrição |
---|---|---|---|---|
Ficheiro PDF | Não | Ficheiro | O ficheiro PDF do qual extrair tabelas. Introduza um caminho de ficheiro, uma variável que contenha um ficheiro ou um caminho de texto | |
Página(s) a extrair | N/A | Tudo, Único, Intervalo | Tudo | Especifica de quantas páginas devem ser extraídas tabelas: todas as páginas, uma página única ou um intervalo de páginas |
Número de página única | Não | Valor numérico | O número da página única a partir da qual as tabelas devem ser extraídas | |
Do número de página | Não | Valor numérico | O número da primeira página do intervalo de páginas a partir do qual as tabelas devem ser extraídas | |
Ao número de página | Não | Valor numérico | O número da última página do intervalo de páginas a partir do qual as tabelas devem ser extraídas | |
Palavra-passe | Sim | Entrada direta encriptada ou Valor de texto | A palavra-passe do ficheiro PDF. Deixe em branco se o PDF não estiver protegido por palavra-passe | |
Intercalar tabelas que atravessam margens das páginas | N/A | Valor booleano | Verdadeiro | Especifica se pretende intercalar as tabelas que atravessam as margens das páginas no intervalo de páginas especificado |
A primeira linha contém nomes de colunas | N/A | Valor booleano | Verdadeiro | Especifica se a primeira linha da tabela contém nomes de colunas |
Variáveis produzidas
Argumento | Tipo | Descrição |
---|---|---|
ExtractedPDFTables | Lista de informações de tabela PDF | As tabelas extraídas com as respetivas informações como uma lista |
Exceções
Exceção | Descrição |
---|---|
O ficheiro PDF não existe | O ficheiro não existe no caminho indicado |
Palavra-passe inválida | A palavra-passe indicada é inválida |
Falha ao extrair tabelas | Erro ao tentar extrair tabelas |
Extrair imagens de PDF
Para extrair imagens de um ficheiro PDF, pode utilizar a ação Extrair imagens do PDF. Nos parâmetros de ação, pode definir o ficheiro PDF e as páginas das quais extrair imagens, a convenção de nomenclatura das imagens extraídas e a localização de destino das imagens guardadas. Também pode definir uma palavra-passe se o ficheiro PDF estiver protegido nas configurações avançadas.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor Predefinido | Descrição |
---|---|---|---|---|
PDF file | Não | Ficheiro | O ficheiro PDF do qual extrair imagens. Introduza um caminho de ficheiro, uma variável que contenha um ficheiro ou um caminho de texto | |
Palavra-passe | Sim | Entrada direta encriptada ou Valor de texto | A palavra-passe do ficheiro PDF. Deixe em branco se o PDF não estiver protegido por palavra-passe | |
Page(s) to extract | N/D | Tudo, Único, Intervalo | Tudo | Especifica quantas páginas devem ser extraídas: Todas as páginas, uma página única ou um intervalo de páginas |
Single page number | Não | Valor numérico | O número da página única a partir da qual as imagens devem ser extraídas | |
From page number | Não | Valor numérico | O número da primeira página do intervalo de páginas a partir do qual as imagens devem ser extraídas | |
To page number | Não | Valor numérico | O número da última página do intervalo de páginas a partir do qual as imagens devem ser extraídas | |
Image(s) name | Não | Valor de texto | Como o nome das imagens começa. Exemplo de nome das imagens extraídas: NomeIndicado_1, NomeIndicado_2 | |
Save image(s) to | Não | Pasta | A pasta onde as imagens extraídas devem ser guardadas como ficheiros png |
Variáveis produzidas
Esta ação não produz quaisquer variáveis.
Exceções
Exceção | Descrição |
---|---|
Palavra-passe inválida | A palavra-passe indicada é inválida |
Falha ao extrair imagens | Indica que ocorreu um erro ao extrair imagens das páginas do PDF indicadas |
A pasta não existe | Indica que a pasta não existe |
O ficheiro PDF não existe | O ficheiro não existe no caminho indicado |
Extrair páginas de ficheiros PDF para um novo ficheiro PDF
Pode criar um novo ficheiro PDF ao extrair páginas de um ficheiro PDF existente ao utilizar a ação Páginas do ficheiro PDF para um novo ficheiro PDF. Nos parâmetros de ação pode definir o ficheiro PDF do qual extrair as páginas, as páginas a serem extraídas, a localização do novo ficheiro PDF e o que deve acontecer se um ficheiro com o mesmo nome e extensão já existir. Finalmente, nas propriedades avançadas, pode definir uma palavra-passe caso o PDF de origem esteja protegido.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor Predefinido | Descrição |
---|---|---|---|---|
PDF file | Não | Ficheiro | O ficheiro PDF do qual extrair páginas. Introduza um caminho de ficheiro, uma variável que contenha um ficheiro ou um caminho de texto | |
Palavra-passe | Sim | Entrada direta encriptada ou Valor de texto | A palavra-passe do ficheiro PDF. Deixe em branco se o PDF não estiver protegido por palavra-passe | |
Page selection | Não | Valor de texto | Os números de índice das páginas a manter (por exemplo: 1, 3, 17-24) | |
Extracted PDF path | Não | Ficheiro | O caminho no qual o ficheiro PDF extraído deve ser armazenado | |
If file exists | N/D | Substituir, Não substituir, Adicionar sufixo sequencial | Adicionar sufixo sequencial | Especifica o que fazer se o ficheiro PDF de destino já existir |
Variáveis produzidas
Argumento | Tipo | Descrição |
---|---|---|
ExtractedPDF | Ficheiro | O novo ficheiro PDF |
Exceções
Exceção | Descrição |
---|---|
Palavra-passe inválida | A palavra-passe indicada é inválida |
O ficheiro PDF não existe | O ficheiro não existe no caminho indicado |
Página fora dos limites | Indica que uma ou mais páginas estão fora dos limites do ficheiro PDF |
Seleção de páginas inválida | Indica que as páginas indicadas não são válidas para o ficheiro PDF |
Falha ao extrair novo PDF | Indica que ocorreu um erro ao tentar extrair novo PDF |
Intercalar ficheiros PDF
Intervala vários ficheiros PDF num novo.
Pode utilizar a ação Unir ficheiros PDF para usar dois ou mais ficheiros PDF e uni-los num único ficheiro. Os ficheiros a unir podem ser fornecidos na forma de lista ou colocados entre aspas e separados por um delimitador. Também pode fornecer palavras-passe para os arquivos PDF, caso estejam protegidos por palavra-passe.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor Predefinido | Descrição |
---|---|---|---|---|
PDF files | Não | Lista de Ficheiros | Os ficheiros a unir. Escreva vários ficheiros entre aspas (") e separe-os com um delimitador ou utilize uma lista de ficheiros | |
Merged PDF path | Não | Ficheiro | O caminho no qual o ficheiro PDF intercalado deve ser armazenado | |
If file exists | N/D | Substituir, Não substituir, Adicionar sufixo sequencial | Adicionar sufixo sequencial | Especifica o que fazer se o ficheiro de destino já existir |
Palavras-chave | Sim | Entrada direta encriptada ou Valor de texto | As palavras-chave delimitadas. A ordem deve ser igual à ordem dos PDFs de entrada. Deixe em branco se o PDFs não estiver protegido por palavra-passe | |
Delimitador | Não | Valor de texto | . | Um delimitador de palavra-passe personalizado. Este delimitado não deve fazer parte de nenhuma das palavras-passe |
Variáveis produzidas
Argumento | Tipo | Descrição |
---|---|---|
MergedPDF | Ficheiro | O ficheiro PDF intercalado |
Exceções
Exceção | Descrição |
---|---|
O ficheiro PDF não existe | O ficheiro não existe no caminho indicado |
Palavra-passe inválida | A palavra-passe indicada é inválida |
Falha ao intercalar ficheiros PDF | Indica que ocorreu um erro ao tentar intercalar os ficheiros |