Ενέργειες PDF
Οι ενέργειες PDF σάς επιτρέπουν να εξαγάγετε εικόνες, κείμενο και πίνακες από αρχεία PDF και να οργανώσετε σελίδες για τη δημιουργία νέων εγγράφων.
Για να εξαγάγετε κείμενο από ένα αρχείο PDF, χρησιμοποιήστε την ενέργεια Εξαγωγή κειμένου από PDF. Το παρακάτω παράδειγμα εξάγει κείμενο από ένα συγκεκριμένο εύρος σελίδων αρχείου που προστατεύεται από κωδικό πρόσβασης. Ο κωδικός πρόσβασης καθορίζεται στις ρυθμίσεις Για προχωρημένους .
Για να εξαγάγετε κείμενα διατεταγμένα σε μορφή πίνακα, ενεργοποιήστε την επιλογή Βελτιστοποίηση για δομημένα δεδομένα ώστε να βελτιώσετε τη μορφή και την ακρίβεια των αποτελεσμάτων.
Για να εξαγάγετε πίνακες από ένα αρχείο PDF, αναπτύξτε την ενέργεια Εξαγωγή πινάκων από PDF , επιλέξτε το αρχείο και καθορίστε τις σελίδες από τις οποίες θα γίνει η εξαγωγή.
Η ενέργεια παράγει τη μεταβλητή ExtractedPDFTables, η οποία περιέχει μια λίστα πληροφοριών πίνακα PDF. Για να βρείτε πληροφορίες σχετικά με αυτόν τον τύπο λίστας, μεταβείτε στην επιλογή Σύνθετοι τύποι δεδομένων.
Σημείωμα
- Η ενέργεια εξαγωγή πινάκων από PDF δεν χρησιμοποιεί την Οπτική αναγνώριση χαρακτήρων (OCR), επομένως δεν μπορείτε να εξαγάγετε κείμενο χωρίς δυνατότητα αντιγραφής από σαρωμένα PDF.
- Η βιβλιοθήκη πίσω από την ενέργεια εξάγει περιστασιακά πρόσθετα δεδομένα PDF που δεν είναι πίνακες. Αυτή η λειτουργικότητα ελαχιστοποιεί τον κίνδυνο ακούσιας παράλειψης ενός πραγματικού πίνακα.
Εκτός από την εξαγωγή πληροφοριών από αρχεία PDF, μπορείτε να δημιουργήσετε ένα νέο έγγραφο PDF από ένα υπάρχον αρχείο χρησιμοποιώντας την ενέργεια Εξαγωγή σελίδων αρχείου PDF σε νέο αρχείο PDF.
Το ακόλουθο παράδειγμα επιλέγει έναν συνδυασμό συγκεκριμένων σελίδων και μιας περιοχής σελίδων.
Εξαγωγή κειμένου από PDF
Μπορείτε να εξαγάγετε κείμενο από ένα αρχείο PDF, χρησιμοποιώντας την ενέργεια "Εξαγωγή κειμένου από PDF". Στις ιδιότητες της ενέργειας μπορείτε να ορίσετε το αρχείο PDF προέλευσης και τις σελίδες από τις οποίες θα πρέπει να γίνει εξαγωγή κειμένου. Στις ιδιότητες των σύνθετων ενεργειών μπορείτε να ορίσετε έναν κωδικό πρόσβασης σε περίπτωση που το αρχείο PDF είναι προστατευμένο και εάν ο μηχανισμός πρέπει να βελτιστοποιηθεί για δομημένα δεδομένα ή όχι.
Παράμετροι εισόδου
Όρισμα | Προαιρετικές | Αποδοχή | Προεπιλεγμένη τιμή | Description |
---|---|---|---|---|
PDF file | Όχι | Αρχείο | Το αρχείο PDF από το οποίο να γίνει εξαγωγή κειμένου. Εισαγάγετε μια διαδρομή αρχείου, μια μεταβλητή που περιέχει ένα αρχείο ή μια διαδρομή κειμένου | |
Σελίδες για εξαγωγή | ΔΙ | Όλα, Μονό, Περιοχή | Όλες | Καθορίζει πόσες σελίδες θα εξαχθούν: όλες οι σελίδες, μία μεμονωμένη σελίδα ή μια περιοχή σελίδων |
Single page number | Όχι | Αριθμητική τιμή | Ο αριθμός της μεμονωμένης σελίδας για εξαγωγή κειμένου από | |
From page number | Όχι | Αριθμητική τιμή | Ο αριθμός της πρώτης σελίδας από την περιοχή σελίδων για εξαγωγή κειμένου από | |
To page number | Όχι | Αριθμητική τιμή | Ο αριθμός της τελευταίας σελίδας από την περιοχή σελίδων για εξαγωγή κειμένου από | |
Κωδικός πρόσβασης | Ναι | Άμεση κρυπτογραφημένη εισαγωγή ή Τιμή κειμένου | Ο κωδικός πρόσβασης του αρχείο PDF. Αφήστε αυτό κενό εάν το αρχείο PDF δεν προστατεύεται από κωδικό πρόσβασης | |
Βελτιστοποίηση για δομημένα δεδομένα | ΔΙ | Δυαδική τιμή | Ανενεργή | Καθορίστε αν θα εντοπιστεί η μορφοποιημένη διάταξη στο έγγραφο και θα εξαχθεί αντίστοιχα το κείμενο |
Μεταβλητές που δημιουργήθηκαν
Όρισμα | Type | Description |
---|---|---|
ExtractedPDFText | Τιμή κειμένου | Το εξαχθέν κείμενο |
Εξαιρέσεις
Εξαίρεση | Περιγραφή |
---|---|
Το αρχείο PDF δεν υπάρχει | Το αρχείο δεν υπάρχει στη δεδομένη διαδρομή |
Μη έγκυρος κωδικός πρόσβασης | Ο δεδομένος κωδικός πρόσβασης δεν είναι έγκυρος |
Η εξαγωγή κειμένου απέτυχε | Σφάλμα κατά την προσπάθεια εξαγωγής κειμένου |
Εξαγωγή πινάκων από PDF
Μπορείτε να εξαγάγετε πίνακες που περιέχονται σε ένα αρχείο PDF χρησιμοποιώντας την ενέργεια Εξαγωγή πινάκων από PDF. Στις ιδιότητες της ενέργειας μπορείτε να ορίσετε το αρχείο PDF και την περιοχή των σελίδων από τις οποίες θα γίνει εξαγωγή πινάκων. Στις ιδιότητες των σύνθετων ενεργειών μπορείτε να ορίσετε έναν κωδικό πρόσβασης σε περίπτωση που ένα αρχείο PDF είναι προστατευμένο, να καθορίσετε εάν ο πίνακας έχει κεφαλίδες ή όχι και, τέλος, εάν οι πίνακες που διασχίζουν τα περιθώρια σελίδας θα πρέπει να συγχωνευθούν ή όχι.
Παράμετροι εισόδου
Όρισμα | Προαιρετικές | Αποδοχή | Προεπιλεγμένη τιμή | Description |
---|---|---|---|---|
Αρχείο PDF | Όχι | Αρχείο | Το αρχείο PDF από το οποίο θα εξαχθούν πίνακες. Εισαγάγετε μια διαδρομή αρχείου, μια μεταβλητή που περιέχει ένα αρχείο ή μια διαδρομή κειμένου | |
Σελίδες για εξαγωγή | ΔΙ | Όλα, Μονό, Περιοχή | Όλες | Καθορίζει από πόσες σελίδες θα εξαχθούν πίνακες: όλες τις σελίδες, μία μεμονωμένη σελίδα ή μια περιοχή σελίδων |
Αριθμός μονής σελίδας | Όχι | Αριθμητική τιμή | Ο αριθμός της μεμονωμένης σελίδας για εξαγωγή πινάκων από | |
Αριθμός σελίδας Από | Όχι | Αριθμητική τιμή | Ο αριθμός της πρώτης σελίδας από το εύρος των σελίδων για την εξαγωγή πινάκων από | |
Αριθμός σελίδας Προς | Όχι | Αριθμητική τιμή | Ο αριθμός της τελευταίας σελίδας από το εύρος των σελίδων για εξαγωγή πινάκων από | |
Κωδικός πρόσβασης | Ναι | Άμεση κρυπτογραφημένη εισαγωγή ή Τιμή κειμένου | Ο κωδικός πρόσβασης του αρχείο PDF. Αφήστε αυτό κενό εάν το αρχείο PDF δεν προστατεύεται από κωδικό πρόσβασης | |
Συγχώνευση πινάκων που διασχίζουν τα περιθώρια σελίδων | ΔΙ | Δυαδική τιμή | Ενεργή | Καθορίζει εάν θα συγχωνευτούν πίνακες που διασχίζουν τα περιθώρια σελίδων στην καθορισμένη περιοχή σελίδων |
Η πρώτη γραμμή περιέχει ονόματα στηλών | ΔΙ | Δυαδική τιμή | Ενεργή | Καθορίζει εάν η πρώτη γραμμή του πίνακα περιέχει ονόματα στηλών |
Μεταβλητές που δημιουργήθηκαν
Όρισμα | Type | Description |
---|---|---|
ExtractedPDFTables | Λίστα πληροφοριών πίνακα PDF | Οι πίνακες που έχουν εξαχθεί με τις πληροφορίες τους ως λίστα |
Εξαιρέσεις
Εξαίρεση | Περιγραφή |
---|---|
Το αρχείο PDF δεν υπάρχει | Το αρχείο δεν υπάρχει στη δεδομένη διαδρομή |
Μη έγκυρος κωδικός πρόσβασης | Ο δεδομένος κωδικός πρόσβασης δεν είναι έγκυρος |
Η εξαγωγή πινάκων απέτυχε | Σφάλμα κατά την προσπάθεια εξαγωγής πινάκων |
Εξαγωγή εικόνων από PDF
Για να εξαγάγετε εικόνες από ένα αρχείο PDF, μπορείτε να χρησιμοποιήσετε την ενέργεια Εξαγωγή εικόνων από PDF. Στις παραμέτρους ενέργειας μπορείτε να καθορίσετε το αρχείο PDF και τις σελίδες από τις οποίες θα εξαγάγετε τις εικόνες, τη σύμβαση ονομασίας των εικόνων που έχουν εξαχθεί και τη θέση προορισμού των αποθηκευμένων εικόνων. Μπορείτε επίσης να ορίσετε έναν κωδικό πρόσβασης, εάν το αρχείο PDF είναι προστατευμένο στις σύνθετες ρυθμίσεις.
Παράμετροι εισόδου
Όρισμα | Προαιρετικές | Αποδοχή | Προεπιλεγμένη τιμή | Description |
---|---|---|---|---|
PDF file | Όχι | Αρχείο | Το αρχείο PDF από το οποίο να γίνει εξαγωγή εικόνων. Εισαγάγετε μια διαδρομή αρχείου, μια μεταβλητή που περιέχει ένα αρχείο ή μια διαδρομή κειμένου | |
Κωδικός πρόσβασης | Ναι | Άμεση κρυπτογραφημένη εισαγωγή ή Τιμή κειμένου | Ο κωδικός πρόσβασης του αρχείο PDF. Αφήστε αυτό κενό εάν το αρχείο PDF δεν προστατεύεται από κωδικό πρόσβασης | |
Page(s) to extract | Μη διαθέσιμο | Όλα, Μονό, Περιοχή | Όλοι | Καθορίζει πόσες σελίδες θα εξαχθούν: όλες οι σελίδες, μία μεμονωμένη σελίδα ή μια περιοχή σελίδων |
Single page number | Όχι | Αριθμητική τιμή | Ο αριθμός της μεμονωμένης σελίδας για εξαγωγή εικόνων από | |
From page number | Όχι | Αριθμητική τιμή | Ο αριθμός της πρώτης σελίδας από την περιοχή σελίδων για εξαγωγή εικόνων από | |
To page number | Όχι | Αριθμητική τιμή | Ο αριθμός της τελευταίας σελίδας από την περιοχή σελίδων από την οποία να γίνει εξαγωγή εικόνων | |
Image(s) name | Όχι | Τιμή κειμένου | Πώς ξεκινά το όνομα των εικόνων. Παράδειγμα ονόματος εικόνων που έχει εξαχθεί: GivenName_1, GivenName_2 | |
Save image(s) to | Όχι | Φάκελος | Ο φάκελος για αποθήκευση των εικόνων που έχουν εξαχθεί ως αρχεία .png |
Μεταβλητές που δημιουργήθηκαν
Αυτή η ενέργεια δεν παράγει μεταβλητές.
Εξαιρέσεις
Εξαίρεση | Description |
---|---|
Μη έγκυρος κωδικός πρόσβασης | Ο δεδομένος κωδικός πρόσβασης δεν είναι έγκυρος |
Η εξαγωγή εικόνων απέτυχε | Υποδεικνύει ότι παρουσιάστηκε σφάλμα κατά την εξαγωγή εικόνων από τις δεδομένους σελίδες του PDF |
Ο φάκελος δεν υπάρχει | Υποδεικνύει ότι ο φάκελος δεν υπάρχει |
Το αρχείο PDF δεν υπάρχει | Το αρχείο δεν υπάρχει στη δεδομένη διαδρομή |
Εξαγωγή σελίδων αρχείου PDF σε νέο αρχείο PDF
Μπορείτε να δημιουργήσετε ένα νέο αρχείο PDF εξάγοντας σελίδες από ένα υπάρχον αρχείο PDF χρησιμοποιώντας την ενέργεια Σελίδες αρχείου PDF σε ένα νέο αρχείο PDF. Στις παραμέτρους ενέργειας μπορείτε να ορίσετε το αρχείο PDF από το οποίο θα γίνει η εξαγωγή των σελίδων, τις σελίδες προς εξαγωγή, τη θέση του νέου αρχείου PDF και τι θα πρέπει να συμβεί εάν υπάρχει ήδη ένα αρχείο με το ίδιο όνομα και την ίδια επέκταση. Τέλος, στις σύνθετες ιδιότητες μπορείτε να ορίσετε έναν κωδικό πρόσβασης σε περίπτωση που το PDF προέλευσης είναι προστατευμένο.
Παράμετροι εισόδου
Όρισμα | Προαιρετικές | Αποδοχή | Προεπιλεγμένη τιμή | Description |
---|---|---|---|---|
PDF file | Όχι | Αρχείο | Το αρχείο PDF από το οποίο να γίνει εξαγωγή σελίδων. Εισαγάγετε μια διαδρομή αρχείου, μια μεταβλητή που περιέχει ένα αρχείο ή μια διαδρομή κειμένου | |
Κωδικός πρόσβασης | Ναι | Άμεση κρυπτογραφημένη εισαγωγή ή Τιμή κειμένου | Ο κωδικός πρόσβασης του αρχείο PDF. Αφήστε αυτό κενό εάν το αρχείο PDF δεν προστατεύεται από κωδικό πρόσβασης | |
Page selection | Όχι | Τιμή κειμένου | Οι αριθμοί ευρετηρίου των σελίδων για διατήρηση (για παράδειγμα 1,3,17-24) | |
Extracted PDF path | Όχι | Αρχείο | Η διαδρομή για την αποθήκευση του αρχείου PDF που έχει εξαχθεί | |
If file exists | Μη διαθέσιμο | Αντικατάσταση, Χωρίς αντικατάσταση, Προσθήκη διαδοχικού επιθήματος | Προσθήκη επιθήματος | Καθορίζει τι πρέπει να κάνετε στην περίπτωση που το αρχείο PDF εξόδου υπάρχει ήδη |
Μεταβλητές που δημιουργήθηκαν
Όρισμα | Type | Description |
---|---|---|
ExtractedPDF | Αρχείο | Το νέο αρχείο PDF |
Εξαιρέσεις
Εξαίρεση | Περιγραφή |
---|---|
Μη έγκυρος κωδικός πρόσβασης | Ο δεδομένος κωδικός πρόσβασης δεν είναι έγκυρος |
Το αρχείο PDF δεν υπάρχει | Το αρχείο δεν υπάρχει στη δεδομένη διαδρομή |
Σελίδα εκτός ορίων | Υποδεικνύει ότι μία ή περισσότερες σελίδες είναι εκτός ορίων του αρχείου PDF |
Μη έγκυρη επιλογή σελίδων | Υποδεικνύει ότι οι δεδομένες σελίδες δεν είναι έγκυρες για το αρχείο PDF |
Απέτυχε η εξαγωγή νέου PDF | Υποδεικνύει ότι παρουσιάστηκε σφάλμα κατά την προσπάθεια εξαγωγής ενός νέου PDF |
Συγχώνευση αρχείων PDF
Συγχωνεύει πολλά αρχεία PDF σε ένα νέο.
Μπορείτε να χρησιμοποιήσετε την ενέργεια Συγχώνευση αρχείων PDF για να χρησιμοποιήσετε δύο ή περισσότερα αρχεία PDF και να τα συγχωνεύσετε σε ένα αρχείο. Τα αρχεία προς συγχώνευση μπορούν να δοθούν είτε με τη μορφή λίστας, είτε μέσα σε διπλά εισαγωγικά και χωρισμένα με ένα οριοθέτη. Επίσης, μπορείτε να παρέχετε κωδικούς πρόσβασης για τα αρχεία PDF, σε περίπτωση που προστατεύονται με κωδικό πρόσβασης.
Παράμετροι εισόδου
Όρισμα | Προαιρετικές | Αποδοχή | Προεπιλεγμένη τιμή | Description |
---|---|---|---|---|
PDF files | Όχι | Λίστααρχείων | Τα αρχεία προς συγχώνευση. Περικλείστε πολλά αρχεία σε διπλά εισαγωγικά (") και διαχωρίστε τα με έναν οριοθέτη ή χρησιμοποιήστε μια λίστα αρχείων | |
Merged PDF path | Όχι | Αρχείο | Η διαδρομή για την αποθήκευση του συγχωνευμένου PDF | |
If file exists | Μη διαθέσιμο | Αντικατάσταση, Χωρίς αντικατάσταση, Προσθήκη διαδοχικού επιθήματος | Προσθήκη επιθήματος | Καθορίζει τι πρέπει να κάνετε στην περίπτωση που το αρχείο προορισμού υπάρχει ήδη |
Κωδικοί πρόσβασης | Ναι | Άμεση κρυπτογραφημένη εισαγωγή ή Τιμή κειμένου | Οι οριοθετημένοι κωδικοί πρόσβασης. Η σειρά πρέπει να είναι ίδια με τη σειρά των PDF εισόδου. Αφήστε αυτό κενό εάν το αρχείο PDF δεν προστατεύεται από κωδικό πρόσβασης | |
Οριοθέτης | Όχι | Τιμή κειμένου | . | Ένας προσαρμοσμένος οριοθέτης κωδικών πρόσβασης. Αυτός ο οριοθέτης δεν θα πρέπει να αποτελεί μέρος οποιουδήποτε από τους κωδικούς πρόσβασης |
Μεταβλητές που δημιουργήθηκαν
Όρισμα | Type | Description |
---|---|---|
MergedPDF | Αρχείο | Το συγχωνευμένο αρχείο PDF |
Εξαιρέσεις
Εξαίρεση | Περιγραφή |
---|---|
Το αρχείο PDF δεν υπάρχει | Το αρχείο δεν υπάρχει στη δεδομένη διαδρομή |
Μη έγκυρος κωδικός πρόσβασης | Ο δεδομένος κωδικός πρόσβασης δεν είναι έγκυρος |
Η συγχώνευση αρχείων PDF απέτυχε | Υποδεικνύει ότι παρουσιάστηκε σφάλμα κατά τη συγχώνευση των αρχείων |