다음을 통해 공유


PDF 작업

PDF 작업을 사용하면 PDF 파일에서 이미지, 텍스트 및 표를 추출하고 페이지를 정렬하여 새 문서를 만들 수 있습니다.

PDF 파일에서 텍스트를 추출하려면 PDF에서 텍스트 추출 작업을 사용합니다. 다음 예제는 암호로 보호된 파일의 특정 페이지 범위에서 텍스트를 추출합니다. 암호는 고급 설정에서 지정됩니다.

표 형식으로 정렬된 텍스트를 추출하려면 구조화된 데이터에 대해 최적화를 활성화하여 결과의 형식과 정확성을 개선합니다.

PDF에서 텍스트 추출 옵션의 스크린샷입니다.

PDF 파일에서 표를 추출하려면 PDF에서 표 추출 작업을 배포하고 파일을 선택한 다음 추출할 페이지를 지정합니다.

이 작업은 PDF 테이블 정보 목록이 포함된 ExtractedPDFTables 변수를 생성합니다. 이 유형의 목록에 대한 정보를 찾으려면 고급 데이터 유형으로 이동하세요.

노트

  • PDF에서 테이블 추출 작업은 광학 문자 인식(OCR)을 사용하지 않으므로 스캔한 PDF에서 복사할 수 없는 텍스트를 추출할 수 없습니다.
  • 작업 뒤에 있는 라이브러리는 때때로 테이블이 아닌 추가 PDF 데이터를 추출합니다. 이 기능은 실수로 실제 테이블을 생략할 위험을 최소화합니다.

PDF에서 테이블 추출 옵션의 스크린샷입니다.

PDF 파일에서 정보를 추출하는 것 외에도 PDF 파일 페이지를 새 PDF 파일로 추출 작업을 사용하여 기존 파일에서 새 PDF 문서를 만들 수 있습니다.

다음 예에서는 특정 페이지와 페이지 범위의 조합을 선택합니다.

PDF 파일 페이지를 새 PDF 파일로 추출 작업의 스크린샷입니다.

PDF에서 텍스트 추출

"PDF에서 텍스트 추출" 작업을 사용하여 PDF 파일에서 텍스트를 추출할 수 있습니다. 작업 속성에서 원본 PDF 파일과 텍스트를 추출해야 하는 페이지를 정의할 수 있습니다. 고급 동작 속성에서 PDF 파일이 보호되는 경우와 엔진이 구조화된 데이터에 대해 최적화해야 하는지 여부에 대한 암호를 정의할 수 있습니다.

입력 매개 변수

인수 선택 항목 수락 기본값 Description
PDF file 아니요 파일 텍스트를 추출할 PDF 파일입니다. 파일 경로, 파일을 포함하는 변수 또는 텍스트 경로를 입력
추출할 페이지 사용 불가 모두, 단일, 범위 전체 모든 페이지, 단일 페이지 또는 페이지 일정 범위 등 추출할 페이지 수 지정
Single page number 아니요 숫자 값 텍스트를 추출한 단일 페이지의 번호
From page number 아니요 숫자 값 텍스트를 추출한 페이지의 범위 중 첫 번째 페이지 번호
To page number 아니요 숫자 값 텍스트를 추출한 페이지의 범위 중 마지막 페이지 번호
Password 직접 암호화 입력 또는 Text value PDF 파일의 암호입니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다
구조화된 데이터에 최적화 사용 불가 부울 값 False 문서에서 서식 있는 레이아웃을 검색할지 여부를 지정하고 이에 따라 텍스트를 추출합니다

변수 생성됨

인수 Type Description
ExtractedPDFText 텍스트 값 추출된 텍스트

예외

예외 설명
PDF 파일 없음 주어진 경로에 파일 없음
잘못된 암호 주어진 암호가 잘못됨
텍스트를 추출하지 못함 텍스트 추출을 시도하는 동안 오류 발생

PDF에서 테이블 추출

PDF에서 테이블 추출 작업을 사용하여 PDF 파일에 포함된 테이블을 추출할 수 있습니다. 작업 속성에서 PDF 파일과 테이블이 추출될 페이지 범위를 정의할 수 있습니다. 고급 동작 속성에서 PDF 파일이 보호되는 경우 암호를 정의하고, 테이블에 헤더가 있는지 여부를 정의하고, 마지막으로 페이지 여백을 넘는 테이블을 병합해야 하는지 여부를 정의할 수 있습니다.

입력 매개 변수

인수 선택 항목 수락 기본값 Description
PDF 파일 아니요 파일 테이블을 추출할 PDF 파일입니다. 파일 경로, 파일을 포함하는 변수 또는 텍스트 경로를 입력하십시오.
추출할 페이지 사용 불가 모두, 단일, 범위 전체 모든 페이지, 단일 페이지 또는 페이지 범위와 같이 테이블을 추출할 페이지 수 지정
단일 페이지 번호 아니요 숫자 값 테이블을 추출한 단일 페이지의 번호
시작 페이지 번호 아니요 숫자 값 테이블을 추출할 페이지의 범위 중 첫 번째 페이지 번호
마지막 페이지 번호 아니요 숫자 값 테이블을 추출할 페이지의 범위 중 마지막 페이지 번호
Password 직접 암호화 입력 또는 Text value PDF 파일의 암호입니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다
페이지 여백을 넘어가는 테이블 병합 사용 불가 부울 값 True 지정된 페이지 범위에서 페이지 여백을 넘어가는 테이블을 병합할 것인지 여부를 지정
첫째 줄에 열 이름 포함 사용 불가 부울 값 True 테이블의 첫 번째 줄에 열 이름이 포함되는지 여부를 지정

변수 생성됨

인수 Type Description
ExtractedPDFTables PDF 테이블 정보 목록 목록으로 된 정보가 있는 추출된 테이블

예외

예외 설명
PDF 파일 없음 주어진 경로에 파일 없음
잘못된 암호 주어진 암호가 잘못됨
테이블을 추출하지 못함 테이블 추출을 시도하는 동안 오류 발생

PDF에서 이미지 추출

PDF 파일에서 이미지를 추출하려면 PDF에서 이미지 추출 작업을 사용하면 됩니다. 작업 매개 변수에서는 PDF 파일과 이미지를 추출할 페이지, 추출된 이미지의 명명 규칙 및 저장된 이미지의 대상 위치를 정의할 수 있습니다. PDF 파일이 고급 설정으로 보호되는 경우 암호를 정의할 수도 있습니다.

입력 매개 변수

인수 선택 항목 수락 기본값 Description
PDF file 아니요 파일 이미지를 추출할 PDF 파일입니다. 파일 경로, 파일을 포함하는 변수 또는 텍스트 경로를 입력
Password 직접 암호화 입력 또는 Text value PDF 파일의 암호입니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다
Page(s) to extract 해당 없음 모두, 단일, 범위 모두 모든 페이지, 단일 페이지 또는 페이지 일정 범위 등 추출할 페이지 수 지정
Single page number 아니요 숫자 값 이미지를 추출한 단일 페이지의 번호
From page number 아니요 숫자 값 이미지를 추출할 페이지의 범위 중 첫 번째 페이지 번호
To page number 아니요 숫자 값 이미지를 추출할 페이지의 범위 중 마지막 페이지 번호
Image(s) name 아니요 텍스트 값 이미지 이름이 시작되는 방식입니다. 추출된 이미지 이름 예: GivenName_1, GivenName_2
Save image(s) to 아니요 폴더 추출된 이미지를 png 파일로 저장할 폴더

변수 생성됨

이 작업은 변수를 생성하지 않습니다.

예외

예외 Description
잘못된 암호 주어진 암호가 잘못됨
이미지를 추출하지 못함 PDF의 주어진 파일에서 이미지를 추출하는 동안 오류가 발생했음을 나타냄
폴더가 없음 폴더가 없음을 나타냄
PDF 파일 없음 주어진 경로에 파일 없음

새 PDF 파일로 PDF 파일 추출

PDF 파일 페이지를 새 PDF 파일로 작업을 사용하여 기존 PDF 파일에서 페이지를 추출하여 새 PDF 파일을 생성할 수 있습니다. 작업 매개 변수에서는 페이지를 추출할 PDF 파일, 추출할 페이지, 새 PDF 파일의 위치, 동일한 이름과 확장자를 가진 파일이 이미 존재하는 경우 발생하는 작업을 정의할 수 있습니다. 마지막으로 고급 속성에서 소스 PDF가 보호되는 경우 암호를 정의할 수 있습니다.

입력 매개 변수

인수 선택 항목 수락 기본값 Description
PDF file 아니요 파일 페이지를 추출할 PDF 파일입니다. 파일 경로, 파일을 포함하는 변수 또는 텍스트 경로를 입력
Password 직접 암호화 입력 또는 Text value PDF 파일의 암호입니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다
Page selection 아니요 텍스트 값 유지할 페이지의 색인 번호(예: 1,3,17-24)
Extracted PDF path 아니요 파일 추출된 PDF 파일을 저장할 경로
If file exists 해당 없음 덮어쓰기, 덮어쓰지 않음, 순차적 접미사 추가 순차적 접미사 추가 출력 PDF 파일 파일이 이미 있는 경우 수행할 작업 지정

변수 생성됨

인수 Type Description
ExtractedPDF 파일 새 PDF 파일

예외

예외 설명
잘못된 암호 주어진 암호가 잘못됨
PDF 파일 없음 주어진 경로에 파일 없음
페이지 경계 벗어남 하나 이상의 페이지가 PDF 파일의 범위를 벗어났음을 나타냄
잘못된 페이지 선택 PDF 파일에 대하여 주어진 페이지가 유효하지 않음을 나타냄
새 PDF 추출 실패 새 PDF 추출을 시도하는 동안 오류가 발생했음을 나타냄

PDF 파일 병합

여러 PDF 파일을 새로운 PDF 파일 하나로 병합합니다.

PDF 파일 병합 작업을 사용하여 두 개 이상의 PDF 파일을 단일 파일로 병합할 수 있습니다. 병합할 파일은 목록 형식으로 제공하거나 큰따옴표로 묶고 구분 기호로 구분하여 제공할 수 있습니다. PDF 파일이 암호로 보호되어 있는 경우 PDF 파일에 암호를 제공할 수도 있습니다.

입력 매개 변수

인수 선택 항목 수락 기본값 Description
PDF files 아니요 파일목록 병합할 파일입니다. 여러 파일은 큰따옴표(")로 묶고 구분 기호로 구분하거나 파일 목록을 사용
Merged PDF path 아니요 파일 병합된 PDF를 저장할 경로
If file exists 해당 없음 덮어쓰기, 덮어쓰지 않음, 순차적 접미사 추가 순차적 접미사 추가 대상 파일이 이미 있는 경우 수행할 작업 지정
Passwords 직접 암호화 입력 또는 Text value 구분된 암호입니다. 순서는 입력 PDF의 순서와 동일해야 합니다. PDF가 암호로 보호되지 않은 경우 공백으로 둡니다
구분 기호 아니요 텍스트 값 , 사용자 지정 암호 구분 기호입니다. 이 구분 기호는 어떤 암호의 일부가 되어서는 안 됩니다

변수 생성됨

인수 Type Description
MergedPDF 파일 병합된 PDF 파일

예외

예외 설명
PDF 파일 없음 주어진 경로에 파일 없음
잘못된 암호 주어진 암호가 잘못됨
PDF 파일을 병합하지 못함 파일을 병합하는 동안 오류가 발생했음을 나타냄