PDF 작업
PDF 작업을 사용하면 PDF 파일에서 이미지, 텍스트 및 표를 추출하고 페이지를 정렬하여 새 문서를 만들 수 있습니다.
PDF 파일에서 텍스트를 추출하려면 PDF에서 텍스트 추출 작업을 사용합니다. 다음 예제는 암호로 보호된 파일의 특정 페이지 범위에서 텍스트를 추출합니다. 암호는 고급 설정에서 지정됩니다.
표 형식으로 정렬된 텍스트를 추출하려면 구조화된 데이터에 대해 최적화를 활성화하여 결과의 형식과 정확성을 개선합니다.
PDF 파일에서 표를 추출하려면 PDF에서 표 추출 작업을 배포하고 파일을 선택한 다음 추출할 페이지를 지정합니다.
이 작업은 PDF 테이블 정보 목록이 포함된 ExtractedPDFTables 변수를 생성합니다. 이 유형의 목록에 대한 정보를 찾으려면 고급 데이터 유형으로 이동하세요.
노트
- PDF에서 테이블 추출 작업은 광학 문자 인식(OCR)을 사용하지 않으므로 스캔한 PDF에서 복사할 수 없는 텍스트를 추출할 수 없습니다.
- 작업 뒤에 있는 라이브러리는 때때로 테이블이 아닌 추가 PDF 데이터를 추출합니다. 이 기능은 실수로 실제 테이블을 생략할 위험을 최소화합니다.
PDF 파일에서 정보를 추출하는 것 외에도 PDF 파일 페이지를 새 PDF 파일로 추출 작업을 사용하여 기존 파일에서 새 PDF 문서를 만들 수 있습니다.
다음 예에서는 특정 페이지와 페이지 범위의 조합을 선택합니다.
PDF에서 텍스트 추출
"PDF에서 텍스트 추출" 작업을 사용하여 PDF 파일에서 텍스트를 추출할 수 있습니다. 작업 속성에서 원본 PDF 파일과 텍스트를 추출해야 하는 페이지를 정의할 수 있습니다. 고급 동작 속성에서 PDF 파일이 보호되는 경우와 엔진이 구조화된 데이터에 대해 최적화해야 하는지 여부에 대한 암호를 정의할 수 있습니다.
입력 매개 변수
인수 | 선택 항목 | 수락 | 기본값 | Description |
---|---|---|---|---|
PDF file | 아니요 | 파일 | 텍스트를 추출할 PDF 파일입니다. 파일 경로, 파일을 포함하는 변수 또는 텍스트 경로를 입력 | |
추출할 페이지 | 사용 불가 | 모두, 단일, 범위 | 전체 | 모든 페이지, 단일 페이지 또는 페이지 일정 범위 등 추출할 페이지 수 지정 |
Single page number | 아니요 | 숫자 값 | 텍스트를 추출한 단일 페이지의 번호 | |
From page number | 아니요 | 숫자 값 | 텍스트를 추출한 페이지의 범위 중 첫 번째 페이지 번호 | |
To page number | 아니요 | 숫자 값 | 텍스트를 추출한 페이지의 범위 중 마지막 페이지 번호 | |
Password | 네 | 직접 암호화 입력 또는 Text value | PDF 파일의 암호입니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다 | |
구조화된 데이터에 최적화 | 사용 불가 | 부울 값 | False | 문서에서 서식 있는 레이아웃을 검색할지 여부를 지정하고 이에 따라 텍스트를 추출합니다 |
변수 생성됨
인수 | Type | Description |
---|---|---|
ExtractedPDFText | 텍스트 값 | 추출된 텍스트 |
예외
예외 | 설명 |
---|---|
PDF 파일 없음 | 주어진 경로에 파일 없음 |
잘못된 암호 | 주어진 암호가 잘못됨 |
텍스트를 추출하지 못함 | 텍스트 추출을 시도하는 동안 오류 발생 |
PDF에서 테이블 추출
PDF에서 테이블 추출 작업을 사용하여 PDF 파일에 포함된 테이블을 추출할 수 있습니다. 작업 속성에서 PDF 파일과 테이블이 추출될 페이지 범위를 정의할 수 있습니다. 고급 동작 속성에서 PDF 파일이 보호되는 경우 암호를 정의하고, 테이블에 헤더가 있는지 여부를 정의하고, 마지막으로 페이지 여백을 넘는 테이블을 병합해야 하는지 여부를 정의할 수 있습니다.
입력 매개 변수
인수 | 선택 항목 | 수락 | 기본값 | Description |
---|---|---|---|---|
PDF 파일 | 아니요 | 파일 | 테이블을 추출할 PDF 파일입니다. 파일 경로, 파일을 포함하는 변수 또는 텍스트 경로를 입력하십시오. | |
추출할 페이지 | 사용 불가 | 모두, 단일, 범위 | 전체 | 모든 페이지, 단일 페이지 또는 페이지 범위와 같이 테이블을 추출할 페이지 수 지정 |
단일 페이지 번호 | 아니요 | 숫자 값 | 테이블을 추출한 단일 페이지의 번호 | |
시작 페이지 번호 | 아니요 | 숫자 값 | 테이블을 추출할 페이지의 범위 중 첫 번째 페이지 번호 | |
마지막 페이지 번호 | 아니요 | 숫자 값 | 테이블을 추출할 페이지의 범위 중 마지막 페이지 번호 | |
Password | 네 | 직접 암호화 입력 또는 Text value | PDF 파일의 암호입니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다 | |
페이지 여백을 넘어가는 테이블 병합 | 사용 불가 | 부울 값 | True | 지정된 페이지 범위에서 페이지 여백을 넘어가는 테이블을 병합할 것인지 여부를 지정 |
첫째 줄에 열 이름 포함 | 사용 불가 | 부울 값 | True | 테이블의 첫 번째 줄에 열 이름이 포함되는지 여부를 지정 |
변수 생성됨
인수 | Type | Description |
---|---|---|
ExtractedPDFTables | PDF 테이블 정보 목록 | 목록으로 된 정보가 있는 추출된 테이블 |
예외
예외 | 설명 |
---|---|
PDF 파일 없음 | 주어진 경로에 파일 없음 |
잘못된 암호 | 주어진 암호가 잘못됨 |
테이블을 추출하지 못함 | 테이블 추출을 시도하는 동안 오류 발생 |
PDF에서 이미지 추출
PDF 파일에서 이미지를 추출하려면 PDF에서 이미지 추출 작업을 사용하면 됩니다. 작업 매개 변수에서는 PDF 파일과 이미지를 추출할 페이지, 추출된 이미지의 명명 규칙 및 저장된 이미지의 대상 위치를 정의할 수 있습니다. PDF 파일이 고급 설정으로 보호되는 경우 암호를 정의할 수도 있습니다.
입력 매개 변수
인수 | 선택 항목 | 수락 | 기본값 | Description |
---|---|---|---|---|
PDF file | 아니요 | 파일 | 이미지를 추출할 PDF 파일입니다. 파일 경로, 파일을 포함하는 변수 또는 텍스트 경로를 입력 | |
Password | 네 | 직접 암호화 입력 또는 Text value | PDF 파일의 암호입니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다 | |
Page(s) to extract | 해당 없음 | 모두, 단일, 범위 | 모두 | 모든 페이지, 단일 페이지 또는 페이지 일정 범위 등 추출할 페이지 수 지정 |
Single page number | 아니요 | 숫자 값 | 이미지를 추출한 단일 페이지의 번호 | |
From page number | 아니요 | 숫자 값 | 이미지를 추출할 페이지의 범위 중 첫 번째 페이지 번호 | |
To page number | 아니요 | 숫자 값 | 이미지를 추출할 페이지의 범위 중 마지막 페이지 번호 | |
Image(s) name | 아니요 | 텍스트 값 | 이미지 이름이 시작되는 방식입니다. 추출된 이미지 이름 예: GivenName_1, GivenName_2 | |
Save image(s) to | 아니요 | 폴더 | 추출된 이미지를 png 파일로 저장할 폴더 |
변수 생성됨
이 작업은 변수를 생성하지 않습니다.
예외
예외 | Description |
---|---|
잘못된 암호 | 주어진 암호가 잘못됨 |
이미지를 추출하지 못함 | PDF의 주어진 파일에서 이미지를 추출하는 동안 오류가 발생했음을 나타냄 |
폴더가 없음 | 폴더가 없음을 나타냄 |
PDF 파일 없음 | 주어진 경로에 파일 없음 |
새 PDF 파일로 PDF 파일 추출
PDF 파일 페이지를 새 PDF 파일로 작업을 사용하여 기존 PDF 파일에서 페이지를 추출하여 새 PDF 파일을 생성할 수 있습니다. 작업 매개 변수에서는 페이지를 추출할 PDF 파일, 추출할 페이지, 새 PDF 파일의 위치, 동일한 이름과 확장자를 가진 파일이 이미 존재하는 경우 발생하는 작업을 정의할 수 있습니다. 마지막으로 고급 속성에서 소스 PDF가 보호되는 경우 암호를 정의할 수 있습니다.
입력 매개 변수
인수 | 선택 항목 | 수락 | 기본값 | Description |
---|---|---|---|---|
PDF file | 아니요 | 파일 | 페이지를 추출할 PDF 파일입니다. 파일 경로, 파일을 포함하는 변수 또는 텍스트 경로를 입력 | |
Password | 네 | 직접 암호화 입력 또는 Text value | PDF 파일의 암호입니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다 | |
Page selection | 아니요 | 텍스트 값 | 유지할 페이지의 색인 번호(예: 1,3,17-24) | |
Extracted PDF path | 아니요 | 파일 | 추출된 PDF 파일을 저장할 경로 | |
If file exists | 해당 없음 | 덮어쓰기, 덮어쓰지 않음, 순차적 접미사 추가 | 순차적 접미사 추가 | 출력 PDF 파일 파일이 이미 있는 경우 수행할 작업 지정 |
변수 생성됨
인수 | Type | Description |
---|---|---|
ExtractedPDF | 파일 | 새 PDF 파일 |
예외
예외 | 설명 |
---|---|
잘못된 암호 | 주어진 암호가 잘못됨 |
PDF 파일 없음 | 주어진 경로에 파일 없음 |
페이지 경계 벗어남 | 하나 이상의 페이지가 PDF 파일의 범위를 벗어났음을 나타냄 |
잘못된 페이지 선택 | PDF 파일에 대하여 주어진 페이지가 유효하지 않음을 나타냄 |
새 PDF 추출 실패 | 새 PDF 추출을 시도하는 동안 오류가 발생했음을 나타냄 |
PDF 파일 병합
여러 PDF 파일을 새로운 PDF 파일 하나로 병합합니다.
PDF 파일 병합 작업을 사용하여 두 개 이상의 PDF 파일을 단일 파일로 병합할 수 있습니다. 병합할 파일은 목록 형식으로 제공하거나 큰따옴표로 묶고 구분 기호로 구분하여 제공할 수 있습니다. PDF 파일이 암호로 보호되어 있는 경우 PDF 파일에 암호를 제공할 수도 있습니다.
입력 매개 변수
인수 | 선택 항목 | 수락 | 기본값 | Description |
---|---|---|---|---|
PDF files | 아니요 | 파일목록 | 병합할 파일입니다. 여러 파일은 큰따옴표(")로 묶고 구분 기호로 구분하거나 파일 목록을 사용 | |
Merged PDF path | 아니요 | 파일 | 병합된 PDF를 저장할 경로 | |
If file exists | 해당 없음 | 덮어쓰기, 덮어쓰지 않음, 순차적 접미사 추가 | 순차적 접미사 추가 | 대상 파일이 이미 있는 경우 수행할 작업 지정 |
Passwords | 네 | 직접 암호화 입력 또는 Text value | 구분된 암호입니다. 순서는 입력 PDF의 순서와 동일해야 합니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다 | |
구분 기호 | 아니요 | 텍스트 값 | , | 사용자 지정 암호 구분 기호입니다. 이 구분 기호는 어떤 암호의 일부가 되어서는 안 됩니다 |
변수 생성됨
인수 | Type | Description |
---|---|---|
MergedPDF | 파일 | 병합된 PDF 파일 |
예외
예외 | 설명 |
---|---|
PDF 파일 없음 | 주어진 경로에 파일 없음 |
잘못된 암호 | 주어진 암호가 잘못됨 |
PDF 파일을 병합하지 못함 | 파일을 병합하는 동안 오류가 발생했음을 나타냄 |