Udostępnij za pośrednictwem


Akcje PDF

Akcje PDF umożliwiają wyodrębnianie obrazów, tekstu i tabel z plików PDF oraz rozmieszczanie stron w celu utworzenia nowych dokumentów.

Aby wyodrębnić tekst z pliku PDF, użyj akcji Wyodrębnij tekst z pliku PDF. W poniższym przykładzie wyodrębniono tekst z określonego zakresu stron pliku chronionego hasłem. Hasło jest określone w ustawieniach Zaawansowanych.

Aby wyodrębnić tekst zorganizowany w postaci tabelarycznej, należy włączyć opcję Optymalizacja dla uporządkowanych danych, aby poprawić format i dokładność wyników.

Zrzut ekranu przedstawiający okno dialogowe z akcją wyodrębniania tekstu z pliku PDF.

Aby wyodrębnić tabele z pliku PDF, należy wdrożyć tabele Wyodrębnienia z akcji PDF, wybrać plik i określić strony, z których ma zostać wyodrębnione.

Akcja tworzy zmienną ExtractedPDFTables, która zawiera listę informacji o tabeli plików PDF. Aby znaleźć informacje o tym typie listy, wybierz Typy danych zaawansowane.

Uwaga

  • Akcja Wyodrębnij tabele z pliku PDF nie używa funkcji optycznego rozpoznawania znaków (OCR), więc nie można wyodrębnić tekstu, którego nie można skopiować z zeskanowanych dokumentów PDF.
  • W bibliotece za akcją czasami są wyodrębniane dodatkowe dane PDF, które nie są tabelami. Ta funkcja zmniejsza ryzyko przypadkowego pominięcia rzeczywistej tabeli.

Zrzut ekranu przedstawiający okno dialogowe z akcją wyodrębniania tabeli z pliku PDF.

Oprócz wyodrębniania informacji z plików PDF można także utworzyć nowy dokument PDF z istniejącego pliku, korzystając z akcji Wyodrębnij strony pliku PDF do nowego pliku PDF.

Poniższy przykład wybiera kombinację konkretnych stron i zakresu stron.

Zrzut ekranu przedstawiający akcję Wyodrębnij strony plików PDF do nowego pliku PDF.

Wyodrębnij tekst z pliku PDF

Można wyodrębnić tekst z pliku PDF, używając akcji „Wyodrębnij tekst z pliku PDF”. We właściwościach akcji można zdefiniować źródłowy plik PDF oraz strony, z których ma zostać wyodrębniony tekst. W ramach właściwości akcji zaawansowanej można zdefiniować hasło, jeśli plik PDF jest chroniony oraz czy zoptymalizować go pod kątem danych strukturalnych, czy nie.

Parametry wejściowe

Argument Opcjonalnie Akceptuje Wartość domyślna opis
PDF file Nie Plik Plik PDF, z którego mają zostać wyodrębnione teksty. Wprowadź ścieżkę do pliku, zmienną zawierającą plik lub ścieżkę tekstową
Strony do wyodrębnienia Brak Wszystkie, Pojedyncze, Zakres Wszystkie Określa, ile stron ma zostać wyodrębnionych: wszystkie strony, pojedyncza strona lub zakres stron
Single page number Nie Wartość liczbowa Numer pojedynczej strony, z której ma zostać wyodrębniony tekst
From page number Nie Wartość liczbowa Numer pierwszej strony w zakresie stron, z których ma zostać wyodrębniony tekst
To page number Nie Wartość liczbowa Numer ostatniej strony w zakresie stron, z których ma zostać wyodrębniony tekst
Password Tak Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej Hasło pliku PDF. Pozostaw to pole puste, jeśli plik PDF nie jest chroniony hasłem
Optymalizuj pod kątem danych, które mają strukturę Brak Wartość logiczna Fałsz Określa, czy w dokumencie ma być wykrywany sformatowany układ i odpowiednio wyodrębniany tekst

Utworzone zmienne

Argument Type opis
ExtractedPDFText Wartość tekstowa Wyodrębniony tekst

Wyjątki

Wyjątek Opis
Plik PDF nie istnieje Plik nie istnieje w danej ścieżce
Nieprawidłowe hasło Dane hasło jest nieprawidłowe
Nie można wyodrębnić tekstu Błąd podczas próby wyodrębnienia tekstu

Wyodrębnij tabele z pliku PDF

Tabele zawarte w pliku PDF można wyodrębnić, korzystając z akcji Wyodrębnij tabele z pliku PDF. We właściwościach akcji można zdefiniować źródłowy plik PDF oraz zakres stron, z których ma zostać wyodrębniony tekst. W obszarze właściwości akcji zaawansowanej można zdefiniować hasło na przykład, jeśli plik PDF jest chroniony, określić, czy tabela ma nagłówki, czy nie, i na koniec czy tabele, które wychodzą poza margines stron powinny zostać scalone, czy nie.

Parametry wejściowe

Argument Opcjonalnie Akceptuje Wartość domyślna opis
Plik PDF Nie Plik Plik PDF, z którego zostaną wyodrębnione tabele. Wprowadź ścieżkę do pliku, zmienną zawierającą plik lub ścieżkę tekstową
Strony do wyodrębnienia Brak Wszystkie, Pojedyncze, Zakres Wszystkie Określa, z ilu stron mają zostać wyodrębnione tabele: wszystkie strony, pojedyncza strona lub zakres stron
Numer pojedynczej strony Nie Wartość liczbowa Numer pojedynczej strony, z której mają zostać wyodrębnione tabele
Od strony numer Nie Wartość liczbowa Numer pierwszej strony w zakresie stron, z których mają zostać wyodrębnione tabele
Do strony numer Nie Wartość liczbowa Numer ostatniej strony w zakresie stron, z których mają zostać wyodrębnione tabele
Password Tak Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej Hasło pliku PDF. Pozostaw to pole puste, jeśli plik PDF nie jest chroniony hasłem
Scal tabele obejmujące marginesy stron Brak Wartość logiczna Prawda Określa, czy tabele, które obejmują marginesy stron w określonym zakresie stron, mają być scalane
Pierwszy wiersz zawiera nazwy kolumn Brak Wartość logiczna Prawda Określa, czy pierwszy wiersz tabeli zawiera nazwy kolumn

Utworzone zmienne

Argument Type opis
ExtractedPDFTables Lista informacji o tabeli PDF Wyodrębnione tabele wraz z dotyczącymi ich informacjami w postaci listy

Wyjątki

Wyjątek Opis
Plik PDF nie istnieje Plik nie istnieje w danej ścieżce
Nieprawidłowe hasło Dane hasło jest nieprawidłowe
Nie można wyodrębnić tabel Błąd podczas próby wyodrębnienia tabel

Wyodrębnij obrazy z pliku PDF

Do wyodrębniania obrazów z pliku PDF można użyć akcji Wyodrębnij obrazy z pliku PDF. W parametrach akcji można zdefiniować plik PDF i strony do wyodrębnienia obrazów, konwencję nazewnictwa takich obrazów oraz określić docelową lokalizację zapisanych obrazów. Jeśli plik PDF jest chroniony w ramach ustawień zaawansowanych, można także zdefiniować hasło.

Parametry wejściowe

Argument Opcjonalnie Akceptuje Wartość domyślna opis
PDF file Nie Plik Plik PDF, z którego mają zostać wyodrębnione obrazy. Wprowadź ścieżkę do pliku, zmienną zawierającą plik lub ścieżkę tekstową
Password Tak Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej Hasło pliku PDF. Pozostaw to pole puste, jeśli plik PDF nie jest chroniony hasłem
Page(s) to extract Nie dotyczy Wszystkie, Pojedyncze, Zakres A-Z Określa, ile stron ma zostać wyodrębnionych: wszystkie strony, pojedyncza strona lub zakres stron
Single page number Nie Wartość liczbowa Numer pojedynczej strony, z której mają zostać wyodrębnione obrazy
From page number Nie Wartość liczbowa Numer pierwszej strony w zakresie stron, z których mają zostać wyodrębnione obrazy
To page number Nie Wartość liczbowa Numer ostatniej strony w zakresie stron, z których mają zostać wyodrębnione obrazy
Image(s) name Nie Wartość tekstowa Jak zaczyna się nazwa obrazów. Przykład nazwy wyodrębnionych obrazów: GivenName_1, GivenName_2
Save image(s) to Nie Folder Folder, w którym wyodrębnione obrazy mają zostać zapisane jako pliki PNG

Utworzone zmienne

Ta akcja nie wywołuje żadnych zmiennych.

Wyjątki

Wyjątek opis
Nieprawidłowe hasło Dane hasło jest nieprawidłowe
Nie można wyodrębnić obrazów Wskazuje, że wystąpił błąd podczas wyodrębniania obrazów z danych stron dokumentu PDF
Folder nie istnieje Wskazuje, że folder nie istnieje
Plik PDF nie istnieje Plik nie istnieje w danej ścieżce

Wyodrębnij strony pliku PDF do nowego pliku PDF

Można także utworzyć nowy dokument PDF z istniejącego pliku, korzystając z akcji Wyodrębnij strony pliku PDF do nowego pliku PDF. W parametrach akcji można zdefiniować plik PDF, do którego mają być zapisane wyodrębnione strony, lokalizację nowego pliku PDF i co powinno się stać, jeśli plik o tej samej nazwie i rozszerzeniu już istnieje. Na koniec we właściwościach zaawansowanych, można zdefiniować hasło, jeśli źródłowy plik PDF jest chroniony.

Parametry wejściowe

Argument Opcjonalnie Akceptuje Wartość domyślna opis
PDF file Nie Plik Plik PDF, z którego mają zostać wyodrębnione strony. Wprowadź ścieżkę do pliku, zmienną zawierającą plik lub ścieżkę tekstową
Password Tak Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej Hasło pliku PDF. Pozostaw to pole puste, jeśli plik PDF nie jest chroniony hasłem
Page selection Nie. Wartość tekstowa Numery indeksów stron do zachowania (np. 1, 3, 17-24)
Extracted PDF path Nie. Plik Ścieżka, w której ma zostać zapisany wyodrębniony plik PDF
If file exists Nie dotyczy Zastąp, Nie zastępuj, dodaj przyrostek sekwencyjny Dodaj sufiks sekwencyjny Określa, co należy zrobić w sytuacji, gdy wyjściowy plik PDF już istnieje

Utworzone zmienne

Argument Type opis
ExtractedPDF Plik Nowy plik PDF

Wyjątki

Wyjątek Opis
Nieprawidłowe hasło Dane hasło jest nieprawidłowe
Plik PDF nie istnieje Plik nie istnieje w danej ścieżce
Strona poza zakresem Wskazuje, że co najmniej jedna strona jest poza zakresem pliku PDF
Nieprawidłowy wybór stron Wskazuje, że dane strony są nieprawidłowe dla pliku PDF
Nie można wyodrębnić nowego pliku PDF Wskazuje, że wystąpił błąd podczas próby wyodrębnienia nowego pliku PDF

Scal pliki PDF

Scala wiele plików PDF w nowym pliku.

Akcji Scal pliki PDF można użyć do pobrania co najmniej dwóch plików PDF i scalenia ich w jeden plik. Pliki do scalenia można określić w formie listy albo w podwójnych cudzysłowach i rozdzielone ogranicznikiem. Można także podać hasła do plików PDF, jeśli są one chronione hasłem.

Parametry wejściowe

Argument Opcjonalnie Akceptuje Wartość domyślna opis
PDF files Nie Listaplików Pliki do scalenia. W przypadku wielu plików należy ująć ich nazwy w podwójne cudzysłowy (") i rozdzielić je ogranicznikiem, ale można też użyć listy plików.
Merged PDF path Nie Plik Ścieżka, w której ma zostać zapisany scalony plik PDF
If file exists Nie dotyczy Zastąp, Nie zastępuj, dodaj przyrostek sekwencyjny Dodaj sufiks sekwencyjny Określa, co należy zrobić w sytuacji, gdy plik docelowy już istnieje
Passwords Tak Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej Rozdzielane hasła. Kolejność powinna być taka sama jak kolejność wejściowych plików PDF. Pozostaw to pole puste, jeśli pliki PDF nie są chronione hasłem
Ogranicznik Nie Wartość tekstowa , Niestandardowy ogranicznik haseł. Ten ogranicznik nie może być częścią jakiegokolwiek hasła.

Utworzone zmienne

Argument Type opis
MergedPDF Plik Scalony plik PDF

Wyjątki

Wyjątek Opis
Plik PDF nie istnieje Plik nie istnieje w danej ścieżce
Nieprawidłowe hasło Dane hasło jest nieprawidłowe
Nie można scalić plików PDF Wskazuje, że wystąpił błąd podczas scalania plików