Ações do PDF
As ações de PDF permitem extrair imagens, texto e tabelas de arquivos PDF e organizar páginas para criar novos documentos.
Para extrair texto de um arquivo PDF, use a ação Extrair texto do PDF. O exemplo a seguir extrai texto de um intervalo específico de páginas de um arquivo protegido por senha. A senha é especificada nas configurações Avançadas.
Para extrair textos organizados em forma de tabela, ative a opção Otimizar para dados estruturados para melhorar o formato e a precisão dos resultados.
Para extrair tabelas de um arquivo PDF, implemente a ação Extrair tabelas do PDF, selecione o arquivo e especifique as páginas das quais extrair.
A ação produz uma variável chamada ExtractedPDFTables que contém uma lista de informações da tabela PDF. Para encontrar informações sobre esse tipo de lista, acesse Tipos de dados avançados.
Observação
- A ação Extrair tabelas do PDF não usa o reconhecimento óptico de caracteres (OCR), portanto, não é possível extrair texto não copiável de PDFs digitalizados.
- Ocasionalmente, a biblioteca por trás da ação extrai dados PDF adicionais que não são tabelas. Essa funcionalidade minimiza o risco de omitir uma tabela real acidentalmente.
Além de extrair informações de arquivos PDF, você pode criar um novo documento PDF a partir de um arquivo existente usando a ação Extrair páginas do arquivo PDF para o novo arquivo PDF.
O exemplo a seguir seleciona uma combinação de páginas específicas e um intervalo de páginas.
Extrair texto do PDF
Você pode extrair texto de um arquivo PDF, usando a ação "Extrair texto do PDF". Nas propriedades da ação você pode definir o arquivo PDF de origem e as páginas das quais o texto deve ser extraído. Nas propriedades avançadas da ação você pode definir uma senha caso o arquivo PDF esteja protegido e se o mecanismo deve otimizar para dados estruturados ou não.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor padrão | Description |
---|---|---|---|---|
PDF file | Não | Arquivo | O arquivo PDF do qual extrair texto. Inserir um caminho de arquivo, uma variável que contenha um arquivo ou um caminho de texto | |
Páginas a serem extraídas | N/D | Todas, Única, Intervalo | Todos | Especifica quantas páginas a serem extraídas: todas as páginas, uma página única ou um intervalo de páginas |
Single page number | Não | Valor numérico | O número da página única da qual o texto será extraído | |
From page number | Não | Valor numérico | O número da primeira página do intervalo de páginas das quais extrair texto | |
To page number | Não | Valor numérico | O número da última página do intervalo de páginas das quais extrair texto | |
Senha | Sim | Entrada direta criptografada ou Valor do texto | A senha do arquivo PDF. Deixe em branco se o PDF não for protegido por senha | |
Otimizar para dados estruturados | N/D | Valor booliano | Falso | Especifique se o layout formatado deve ser detectado no documento e extrair o texto adequadamente |
Variáveis produzidas
Argumento | Type | Description |
---|---|---|
ExtractedPDFText | Valor do texto | O texto extraído |
Exceções
Exceção | Descrição |
---|---|
PDF file doesn't exist | O arquivo não existe no caminho fornecido |
Invalid password | A senha fornecida é inválida |
Não foi possível extrair o texto | Erro ao tentar extrair texto |
Extrair tabelas do PDF
Você pode extrair tabelas contidas em um arquivo PDF usando a ação Extrair tabelas do PDF. Nas propriedades da ação você pode definir o arquivo PDF e o intervalo de páginas dos quais as tabelas serão extraídas. Nas propriedades avançadas da ação você pode definir uma senha caso o arquivo PDF esteja protegido, definir se a tabela possui cabeçalhos ou não e, finalmente, se as tabelas que cruzam as margens da página devem ser mescladas ou não.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor padrão | Description |
---|---|---|---|---|
Arquivo PDF | Não | Arquivo | O arquivo PDF do qual extrair tabelas. Inserir um caminho de arquivo, uma variável que contenha um arquivo ou um caminho de texto | |
Páginas a serem extraídas | N/A | Todos, Único, Intervalo | Todos | Especifica de quantas páginas serão extraídas tabelas: todas as páginas, uma única página ou um intervalo de páginas |
Número da página única | Não | Valor numérico | O número de uma única página da qual extrair tabelas | |
Número da página inicial | Não | Valor numérico | O número da primeira página do intervalo de páginas das quais extrair tabelas | |
Número da página final | Não | Valor numérico | O número da última página do intervalo de páginas das quais extrair tabelas | |
Senha | Sim | Entrada direta criptografada ou Valor do texto | A senha do arquivo PDF. Deixe em branco se o PDF não for protegido por senha | |
Mesclar tabelas que estão entre as margens da página | N/A | Valor booliano | Verdadeiro | Especifica se as tabelas que podem ser mescladas ou não entre as margens da página no intervalo de páginas especificado |
A primeira linha contém os nomes das colunas | N/A | Valor booliano | Verdadeiro | Especifica se a primeira linha da tabela contém os nomes das colunas |
Variáveis produzidas
Argumento | Type | Description |
---|---|---|
ExtractedPDFTables | Lista de informações da tabela PDF | As tabelas extraídas com suas informações como uma lista |
Exceções
Exceção | Descrição |
---|---|
O arquivo PDF não existe | O arquivo não existe no caminho fornecido |
Senha inválida | A senha fornecida é inválida |
Falha ao extrair tabelas | Erro ao tentar extrair tabelas |
Extrair imagens do PDF
Para extrair imagens de um arquivo PDF, você pode usar a ação Extrair imagens do PDF. Nos parâmetros de ação você pode definir o arquivo PDF e as páginas das quais extrair as imagens, a convenção de nomenclatura das imagens extraídas e o local de destino das imagens salvas. Você também pode definir uma senha se o arquivo PDF estiver protegido nas configurações avançadas.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor padrão | Description |
---|---|---|---|---|
PDF file | Não | Arquivo | O arquivo PDF do qual extrair imagens. Insira um caminho de arquivo, uma variável que contenha um arquivo ou um caminho de texto | |
Senha | Sim | Entrada direta criptografada ou Valor do texto | A senha do arquivo PDF. Deixe em branco se o PDF não for protegido por senha | |
Page(s) to extract | N/D | Todos, Único, Intervalo | Todas | Especifica quantas páginas a serem extraídas: todas as páginas, uma página única ou um intervalo de páginas |
Single page number | Não | Valor numérico | O número da página única da qual extrair imagens | |
From page number | Não | Valor numérico | O número da primeira página do intervalo de páginas das quais extrair imagens | |
To page number | Não | Valor numérico | O número da última página do intervalo de páginas das quais extrair imagens | |
Image(s) name | Não | Valor do texto | Como é iniciado o nome da(s) imagem(ns). Exemplo de nome da(s) imagem(ns) extraída(s): GivenName_1, GivenName_2 | |
Save image(s) to | Não | Pasta | A pasta na qual salvar as imagens extraídas como arquivos PNG |
Variáveis produzidas
Essa ação não produz variáveis.
Exceções
Exceção | Description |
---|---|
Senha inválida | A senha fornecida é inválida |
Falha ao extrair as imagens | Indica que ocorreu um erro ao extrair imagens das páginas fornecidas do PDF |
A pasta não existe | Indica que a pasta não existe |
O arquivo PDF não existe | O arquivo não existe no caminho fornecido |
Extrair páginas do arquivo PDF para o novo arquivo PDF
Você pode criar um novo arquivo PDF extraindo páginas de um arquivo PDF existente, usando a ação Extrair páginas de um arquivo PDF para um novo arquivo PDF. Nos parâmetros da ação você pode definir o arquivo PDF do qual extrair as páginas, as páginas a serem extraídas, a localização do novo arquivo PDF e o que deve acontecer se já existir um arquivo com o mesmo nome e extensão. Finalmente, nas propriedades avançadas você pode definir uma senha, caso o PDF de origem esteja protegido.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor padrão | Description |
---|---|---|---|---|
Arquivo PDF | Não | Arquivo | O arquivo PDF do qual extrair páginas. Insira um caminho de arquivo, uma variável que contenha um arquivo ou um caminho de texto | |
Senha | Sim | Entrada direta criptografada ou Valor do texto | A senha do arquivo PDF. Deixe em branco se o PDF não for protegido por senha | |
Seleção de página | Não | Valor do texto | Os números de índice das páginas a serem mantidas (por exemplo, 1,3,17-24) | |
Caminho PDF extraído | Não | Arquivo | O caminho no qual o arquivo PDF extraído será armazenado | |
Se o arquivo existir | N/D | Substituir, Não substituir, Adicionar sufixo sequencial | Adicionar sufixo sequencial | Especifica o que fazer se o arquivo PDF de saída já existir |
Variáveis produzidas
Argumento | Type | Description |
---|---|---|
ExtractedPDF | Arquivo | O novo arquivo PDF |
Exceções
Exceção | Descrição |
---|---|
Senha inválida | A senha fornecida é inválida |
O arquivo PDF não existe | O arquivo não existe no caminho fornecido |
Página fora dos limites | Indica que uma ou mais páginas estão fora dos limites do arquivo PDF |
Seleção de página inválida | Indica que as páginas fornecidas não são válidas para o arquivo PDF |
Falha ao extrair novo PDF | Indica que ocorreu um erro ao tentar extrair um novo PDF |
Mesclar arquivos PDF
Mescla vários arquivos PDF em um novo.
Você pode usar a ação Mesclar arquivos PDF para pegar dois ou mais arquivos PDF e mesclá-los em um único arquivo. Os arquivos a serem mesclados podem ser fornecidos no formato de uma lista ou entre aspas duplas e separados por um delimitador. Você também pode fornecer senhas para os arquivos PDF, caso sejam protegidos por senha.
Parâmetros de entrada
Argumento | Opcional | Aceita | Valor padrão | Description |
---|---|---|---|---|
Arquivos PDF | Não | Lista de Arquivos | Os arquivos a mesclar. Incluir vários arquivos entre aspas duplas (") e separá-los por um delimitador ou usar uma lista de arquivos | |
Caminho PDF mesclado | Não | Arquivo | O caminho no qual o PDF mesclado será armazenado | |
Se o arquivo existir | N/D | Substituir, Não substituir, Adicionar sufixo sequencial | Adicionar sufixo sequencial | Especifica o que fazer se o arquivo de destino já existir |
Senhas | Sim | Entrada direta criptografada ou Valor do texto | As senhas delimitadas. A ordem deve ser igual à ordem dos PDFs de entrada. Deixe em branco se o PDFs não forem protegido por senha | |
Delimitador | Não | Valor do texto | , | Um delimitador de senha personalizado. Esse delimitador não deve ser parte de nenhuma das senhas |
Variáveis produzidas
Argumento | Type | Description |
---|---|---|
MergedPDF | Arquivo | O arquivo PDF mesclado |
Exceções
Exceção | Descrição |
---|---|
O arquivo PDF não existe | O arquivo não existe no caminho fornecido |
Senha inválida | A senha fornecida é inválida |
Falha ao mesclar arquivos PDF | Indica que ocorreu um erro ao mesclar os arquivos |