Akcje PDF
Akcje PDF umożliwiają wyodrębnianie obrazów, tekstu i tabel z plików PDF oraz rozmieszczanie stron w celu utworzenia nowych dokumentów.
Aby wyodrębnić tekst z pliku PDF, użyj akcji Wyodrębnij tekst z pliku PDF. W poniższym przykładzie wyodrębniono tekst z określonego zakresu stron pliku chronionego hasłem. Hasło jest określone w ustawieniach Zaawansowanych.
Aby wyodrębnić tekst zorganizowany w postaci tabelarycznej, należy włączyć opcję Optymalizacja dla uporządkowanych danych, aby poprawić format i dokładność wyników.
Aby wyodrębnić tabele z pliku PDF, należy wdrożyć tabele Wyodrębnienia z akcji PDF, wybrać plik i określić strony, z których ma zostać wyodrębnione.
Akcja tworzy zmienną ExtractedPDFTables, która zawiera listę informacji o tabeli plików PDF. Aby znaleźć informacje o tym typie listy, wybierz Typy danych zaawansowane.
Uwaga
- Akcja Wyodrębnij tabele z pliku PDF nie używa funkcji optycznego rozpoznawania znaków (OCR), więc nie można wyodrębnić tekstu, którego nie można skopiować z zeskanowanych dokumentów PDF.
- W bibliotece za akcją czasami są wyodrębniane dodatkowe dane PDF, które nie są tabelami. Ta funkcja zmniejsza ryzyko przypadkowego pominięcia rzeczywistej tabeli.
Oprócz wyodrębniania informacji z plików PDF można także utworzyć nowy dokument PDF z istniejącego pliku, korzystając z akcji Wyodrębnij strony pliku PDF do nowego pliku PDF.
Poniższy przykład wybiera kombinację konkretnych stron i zakresu stron.
Wyodrębnij tekst z pliku PDF
Można wyodrębnić tekst z pliku PDF, używając akcji „Wyodrębnij tekst z pliku PDF”. We właściwościach akcji można zdefiniować źródłowy plik PDF oraz strony, z których ma zostać wyodrębniony tekst. W ramach właściwości akcji zaawansowanej można zdefiniować hasło, jeśli plik PDF jest chroniony oraz czy zoptymalizować go pod kątem danych strukturalnych, czy nie.
Parametry wejściowe
Argument | Opcjonalnie | Akceptuje | Wartość domyślna | opis |
---|---|---|---|---|
PDF file | Nie | Plik | Plik PDF, z którego mają zostać wyodrębnione teksty. Wprowadź ścieżkę do pliku, zmienną zawierającą plik lub ścieżkę tekstową | |
Strony do wyodrębnienia | Brak | Wszystkie, Pojedyncze, Zakres | Wszystkie | Określa, ile stron ma zostać wyodrębnionych: wszystkie strony, pojedyncza strona lub zakres stron |
Single page number | Nie | Wartość liczbowa | Numer pojedynczej strony, z której ma zostać wyodrębniony tekst | |
From page number | Nie | Wartość liczbowa | Numer pierwszej strony w zakresie stron, z których ma zostać wyodrębniony tekst | |
To page number | Nie | Wartość liczbowa | Numer ostatniej strony w zakresie stron, z których ma zostać wyodrębniony tekst | |
Password | Tak | Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej | Hasło pliku PDF. Pozostaw to pole puste, jeśli plik PDF nie jest chroniony hasłem | |
Optymalizuj pod kątem danych, które mają strukturę | Brak | Wartość logiczna | Fałsz | Określa, czy w dokumencie ma być wykrywany sformatowany układ i odpowiednio wyodrębniany tekst |
Utworzone zmienne
Argument | Type | opis |
---|---|---|
ExtractedPDFText | Wartość tekstowa | Wyodrębniony tekst |
Wyjątki
Wyjątek | Opis |
---|---|
Plik PDF nie istnieje | Plik nie istnieje w danej ścieżce |
Nieprawidłowe hasło | Dane hasło jest nieprawidłowe |
Nie można wyodrębnić tekstu | Błąd podczas próby wyodrębnienia tekstu |
Wyodrębnij tabele z pliku PDF
Tabele zawarte w pliku PDF można wyodrębnić, korzystając z akcji Wyodrębnij tabele z pliku PDF. We właściwościach akcji można zdefiniować źródłowy plik PDF oraz zakres stron, z których ma zostać wyodrębniony tekst. W obszarze właściwości akcji zaawansowanej można zdefiniować hasło na przykład, jeśli plik PDF jest chroniony, określić, czy tabela ma nagłówki, czy nie, i na koniec czy tabele, które wychodzą poza margines stron powinny zostać scalone, czy nie.
Parametry wejściowe
Argument | Opcjonalnie | Akceptuje | Wartość domyślna | opis |
---|---|---|---|---|
Plik PDF | Nie | Plik | Plik PDF, z którego zostaną wyodrębnione tabele. Wprowadź ścieżkę do pliku, zmienną zawierającą plik lub ścieżkę tekstową | |
Strony do wyodrębnienia | Brak | Wszystkie, Pojedyncze, Zakres | Wszystkie | Określa, z ilu stron mają zostać wyodrębnione tabele: wszystkie strony, pojedyncza strona lub zakres stron |
Numer pojedynczej strony | Nie | Wartość liczbowa | Numer pojedynczej strony, z której mają zostać wyodrębnione tabele | |
Od strony numer | Nie | Wartość liczbowa | Numer pierwszej strony w zakresie stron, z których mają zostać wyodrębnione tabele | |
Do strony numer | Nie | Wartość liczbowa | Numer ostatniej strony w zakresie stron, z których mają zostać wyodrębnione tabele | |
Password | Tak | Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej | Hasło pliku PDF. Pozostaw to pole puste, jeśli plik PDF nie jest chroniony hasłem | |
Scal tabele obejmujące marginesy stron | Brak | Wartość logiczna | Prawda | Określa, czy tabele, które obejmują marginesy stron w określonym zakresie stron, mają być scalane |
Pierwszy wiersz zawiera nazwy kolumn | Brak | Wartość logiczna | Prawda | Określa, czy pierwszy wiersz tabeli zawiera nazwy kolumn |
Utworzone zmienne
Argument | Type | opis |
---|---|---|
ExtractedPDFTables | Lista informacji o tabeli PDF | Wyodrębnione tabele wraz z dotyczącymi ich informacjami w postaci listy |
Wyjątki
Wyjątek | Opis |
---|---|
Plik PDF nie istnieje | Plik nie istnieje w danej ścieżce |
Nieprawidłowe hasło | Dane hasło jest nieprawidłowe |
Nie można wyodrębnić tabel | Błąd podczas próby wyodrębnienia tabel |
Wyodrębnij obrazy z pliku PDF
Do wyodrębniania obrazów z pliku PDF można użyć akcji Wyodrębnij obrazy z pliku PDF. W parametrach akcji można zdefiniować plik PDF i strony do wyodrębnienia obrazów, konwencję nazewnictwa takich obrazów oraz określić docelową lokalizację zapisanych obrazów. Jeśli plik PDF jest chroniony w ramach ustawień zaawansowanych, można także zdefiniować hasło.
Parametry wejściowe
Argument | Opcjonalnie | Akceptuje | Wartość domyślna | opis |
---|---|---|---|---|
PDF file | Nie | Plik | Plik PDF, z którego mają zostać wyodrębnione obrazy. Wprowadź ścieżkę do pliku, zmienną zawierającą plik lub ścieżkę tekstową | |
Password | Tak | Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej | Hasło pliku PDF. Pozostaw to pole puste, jeśli plik PDF nie jest chroniony hasłem | |
Page(s) to extract | Nie dotyczy | Wszystkie, Pojedyncze, Zakres | A-Z | Określa, ile stron ma zostać wyodrębnionych: wszystkie strony, pojedyncza strona lub zakres stron |
Single page number | Nie | Wartość liczbowa | Numer pojedynczej strony, z której mają zostać wyodrębnione obrazy | |
From page number | Nie | Wartość liczbowa | Numer pierwszej strony w zakresie stron, z których mają zostać wyodrębnione obrazy | |
To page number | Nie | Wartość liczbowa | Numer ostatniej strony w zakresie stron, z których mają zostać wyodrębnione obrazy | |
Image(s) name | Nie | Wartość tekstowa | Jak zaczyna się nazwa obrazów. Przykład nazwy wyodrębnionych obrazów: GivenName_1, GivenName_2 | |
Save image(s) to | Nie | Folder | Folder, w którym wyodrębnione obrazy mają zostać zapisane jako pliki PNG |
Utworzone zmienne
Ta akcja nie wywołuje żadnych zmiennych.
Wyjątki
Wyjątek | opis |
---|---|
Nieprawidłowe hasło | Dane hasło jest nieprawidłowe |
Nie można wyodrębnić obrazów | Wskazuje, że wystąpił błąd podczas wyodrębniania obrazów z danych stron dokumentu PDF |
Folder nie istnieje | Wskazuje, że folder nie istnieje |
Plik PDF nie istnieje | Plik nie istnieje w danej ścieżce |
Wyodrębnij strony pliku PDF do nowego pliku PDF
Można także utworzyć nowy dokument PDF z istniejącego pliku, korzystając z akcji Wyodrębnij strony pliku PDF do nowego pliku PDF. W parametrach akcji można zdefiniować plik PDF, do którego mają być zapisane wyodrębnione strony, lokalizację nowego pliku PDF i co powinno się stać, jeśli plik o tej samej nazwie i rozszerzeniu już istnieje. Na koniec we właściwościach zaawansowanych, można zdefiniować hasło, jeśli źródłowy plik PDF jest chroniony.
Parametry wejściowe
Argument | Opcjonalnie | Akceptuje | Wartość domyślna | opis |
---|---|---|---|---|
PDF file | Nie | Plik | Plik PDF, z którego mają zostać wyodrębnione strony. Wprowadź ścieżkę do pliku, zmienną zawierającą plik lub ścieżkę tekstową | |
Password | Tak | Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej | Hasło pliku PDF. Pozostaw to pole puste, jeśli plik PDF nie jest chroniony hasłem | |
Page selection | Nie. | Wartość tekstowa | Numery indeksów stron do zachowania (np. 1, 3, 17-24) | |
Extracted PDF path | Nie. | Plik | Ścieżka, w której ma zostać zapisany wyodrębniony plik PDF | |
If file exists | Nie dotyczy | Zastąp, Nie zastępuj, dodaj przyrostek sekwencyjny | Dodaj sufiks sekwencyjny | Określa, co należy zrobić w sytuacji, gdy wyjściowy plik PDF już istnieje |
Utworzone zmienne
Argument | Type | opis |
---|---|---|
ExtractedPDF | Plik | Nowy plik PDF |
Wyjątki
Wyjątek | Opis |
---|---|
Nieprawidłowe hasło | Dane hasło jest nieprawidłowe |
Plik PDF nie istnieje | Plik nie istnieje w danej ścieżce |
Strona poza zakresem | Wskazuje, że co najmniej jedna strona jest poza zakresem pliku PDF |
Nieprawidłowy wybór stron | Wskazuje, że dane strony są nieprawidłowe dla pliku PDF |
Nie można wyodrębnić nowego pliku PDF | Wskazuje, że wystąpił błąd podczas próby wyodrębnienia nowego pliku PDF |
Scal pliki PDF
Scala wiele plików PDF w nowym pliku.
Akcji Scal pliki PDF można użyć do pobrania co najmniej dwóch plików PDF i scalenia ich w jeden plik. Pliki do scalenia można określić w formie listy albo w podwójnych cudzysłowach i rozdzielone ogranicznikiem. Można także podać hasła do plików PDF, jeśli są one chronione hasłem.
Parametry wejściowe
Argument | Opcjonalnie | Akceptuje | Wartość domyślna | opis |
---|---|---|---|---|
PDF files | Nie | Listaplików | Pliki do scalenia. W przypadku wielu plików należy ująć ich nazwy w podwójne cudzysłowy (") i rozdzielić je ogranicznikiem, ale można też użyć listy plików. | |
Merged PDF path | Nie | Plik | Ścieżka, w której ma zostać zapisany scalony plik PDF | |
If file exists | Nie dotyczy | Zastąp, Nie zastępuj, dodaj przyrostek sekwencyjny | Dodaj sufiks sekwencyjny | Określa, co należy zrobić w sytuacji, gdy plik docelowy już istnieje |
Passwords | Tak | Bezpośrednie wprowadzanie zaszyfrowanego tekstu lub wartości tekstowej | Rozdzielane hasła. Kolejność powinna być taka sama jak kolejność wejściowych plików PDF. Pozostaw to pole puste, jeśli pliki PDF nie są chronione hasłem | |
Ogranicznik | Nie | Wartość tekstowa | , | Niestandardowy ogranicznik haseł. Ten ogranicznik nie może być częścią jakiegokolwiek hasła. |
Utworzone zmienne
Argument | Type | opis |
---|---|---|
MergedPDF | Plik | Scalony plik PDF |
Wyjątki
Wyjątek | Opis |
---|---|
Plik PDF nie istnieje | Plik nie istnieje w danej ścieżce |
Nieprawidłowe hasło | Dane hasło jest nieprawidłowe |
Nie można scalić plików PDF | Wskazuje, że wystąpił błąd podczas scalania plików |