복사 작업에서 Oracle Cloud Storage 구성
이 문서에서는 데이터 파이프라인에서 복사 작업을 사용하여 Oracle Cloud Storage에서 데이터를 복사하는 방법을 간략하게 설명합니다.
필수 구성 요소
Oracle Cloud Storage에서 데이터를 복사하려면 필수 구성 요소 및 필요한 권한에 대한 Object Storage Amazon S3 호환성 API를 참조하세요.
지원되는 형식
Oracle Cloud Storage는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.
지원되는 구성
복사 작업의 각 탭 구성에 대해서는 다음 섹션으로 이동합니다.
일반
일반 탭을 구성하려면 일반으로 이동합니다.
원본
복사 작업의 원본 탭에서 Oracle Cloud Storage에 대해 지원되는 속성은 다음과 같습니다.
다음 속성은 필수입니다.
데이터 저장소 유형: 외부를 선택합니다.
연결: 연결 목록에서 Oracle Cloud Storage 연결을 선택합니다. 연결이 없으면 새로 만들기를 선택하여 새 Oracle Cloud Storage 연결을 만듭니다.
파일 경로 유형: 파일 경로 유형으로 파일 경로, 접두사, 와일드카드 파일 경로 또는 파일 목록을 선택할 수 있습니다. 이러한 각 설정의 구성은 다음과 같습니다.
파일 경로: 데이터는 파일 경로에 지정된 버킷 또는 폴더/파일 경로에서 복사할 수 있습니다.
접두사: 버킷 및 접두사를 지정합니다.
버킷: Oracle Cloud Storage 버킷 이름을 지정합니다. 이 필드는 필수입니다.
접두사: 지정된 버킷에서 소스 Oracle Cloud Storage 파일을 필터링하기 위한 Oracle Cloud Storage 키 이름의 접두사입니다. 이름이
given_bucket/this_prefix
로 시작하는 Oracle Cloud Storage 키가 선택되었습니다. 와일드카드 필터보다 나은 성능을 제공하는 Oracle Cloud Storage의 서비스 필터를 활용합니다.
와일드카드 파일 경로: 버킷 및 와일드카드 경로를 지정합니다.
버킷: Oracle Cloud Storage 버킷 이름을 지정합니다. 이 필드는 필수입니다.
와일드카드 경로: 지정한 버킷 아래에 와일드카드 문자로 폴더 또는 파일 경로를 지정하여 원본 폴더 또는 파일을 필터링합니다.
허용되는 와일드카드:
*
(0개 이상의 문자와 일치) 및?
(0개 또는 단일 문자와 일치). 폴더 이름에 와일드카드 또는 이 이스케이프 문자가 있는 경우^
을 사용하여 이스케이프합니다. 더 많은 예를 보려면 폴더 및 파일 필터 예로 이동하세요.- 와일드카드 폴더 경로: 지정된 버킷 아래에 와일드카드 문자로 폴더 경로를 지정하여 원본 폴더를 필터링합니다.
- 와일드카드 파일 이름: 지정된 버킷 및 폴더 경로(또는 와일드카드 폴더 경로) 아래에 와일드카드 문자가 포함된 파일 이름을 지정하여 원본 파일을 필터링합니다.
파일 목록: 지정된 파일 집합을 복사하도록 표시할 폴더 경로 및 파일 경로 목록을 지정합니다. 복사할 파일 목록이 포함된 텍스트 파일을 한 줄에 한 파일씩, 구성된 경로의 상대 경로인 텍스트 파일을 가리킵니다. 더 많은 예를 보려면 파일 목록 예로 이동합니다.
- 폴더 경로: 지정된 버킷 아래에 있는 폴더의 경로를 지정합니다. 이 필드는 필수입니다.
- 파일 목록 경로: 복사할 파일 목록이 포함된 텍스트 파일의 경로를 지정합니다.
재귀적: 데이터를 하위 폴더에서 재귀적으로 읽을지, 아니면 지정된 폴더에서만 읽을지를 나타냅니다. 이 확인란을 선택하고 대상이 파일 기반 저장소인 경우 대상에 빈 폴더 또는 하위 폴더가 복사되거나 만들어지지 않습니다.
파일 형식: 드롭다운 목록에서 적용된 파일 형식을 선택합니다. 설정을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정은 지원되는 형식의 문서를 참조하세요.
고급에서 다음 필드를 지정할 수 있습니다.
마지막으로 수정한 날짜별로 필터링: 지정한 마지막 수정 날짜를 기준으로 파일이 필터링됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
- 시작 시간(UTC): 마지막으로 수정한 시간이 구성된 시간보다 크거나 같은 경우 파일이 선택됩니다.
- 종료 시간(UTC): 마지막으로 수정한 시간이 구성된 시간보다 작은 경우 파일이 선택됩니다.
시작 시간(UTC)에 날짜/시간 값이 있지만 종료 시간(UTC)이 null인 경우, 마지막으로 수정된 특성이 날짜/시간 값보다 크거나 같은 파일이 선택됨을 의미합니다. 종료 시간(UTC)에 날짜/시간 값이 있지만 시작 시간(UTC)이 null인 경우, 마지막으로 수정된 특성이 날짜/시간 값보다 작은 파일이 선택됨을 의미합니다. 속성은 NULL일 수 있습니다. 이 경우 파일 특성 필터가 데이터에 적용되지 않습니다.
파티션 검색 활성화: 파일 경로에서 파티션을 구문 분석하여 다른 원본 열로 추가할지 여부를 지정합니다. 기본적으로 선택되지 않으며 이진 파일 형식을 사용하는 경우 지원되지 않습니다.
파티션 루트 경로: 파티션 검색이 활성화된 경우 파티션된 폴더를 데이터 열로 읽을 수 있는 절대 루트 경로를 지정합니다.
지정되지 않은 경우 기본적으로 다음과 같이 지정됩니다.
- 원본에 파일 경로 또는 파일 목록을 사용하는 경우 파티션 루트 경로는 사용자가 구성한 경로입니다.원본에 파일 경로 또는 파일 목록을 사용하는 경우 파티션 루트 경로는 사용자가 구성한 경로입니다.
- 와일드카드 폴더 필터를 사용하는 경우 파티션 루트 경로는 첫 번째 와일드카드 앞의 하위 경로가 됩니다.
- 접두사를 사용하는 경우 파티션 루트 경로는 마지막 “/” 앞의 하위 경로입니다.
예를 들어, 경로를 다음과 같이
root/folder/year=2020/month=08/day=27
(으)로 구성합니다.- 파티션 루트 경로를
root/folder/year=2020
(으)로 지정하면 복사 작업에서 월과 일이라는 두 개의 열이 더 생성됩니다. 이러한 열에는 파일 내의 열 외에도 각각 "08" 및 "27" 값이 있습니다. - 파티션 루트 경로를 지정하지 않으면 추가 열이 생성되지 않습니다.
최대 동시 연결: 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
추가 열: 데이터 열을 추가하여 원본 파일의 상대 경로 또는 정적 값을 저장합니다. 식은 정적 값에 대해 지원됩니다.
매핑
매핑 탭 구성에 대해서는 매핑 탭에서 매핑 구성을 참조하세요. 파일 형식으로 바이너리를 선택하면 매핑이 지원되지 않습니다.
설정
설정 탭 구성은 설정 탭에서 다른 설정 구성을 참조하세요.
표 요약
다음 표에는 Oracle Cloud Storage의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.
원본 정보
이름 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
데이터 저장소 유형 | 데이터 저장소 유형입니다. | 외부 | 예 | / |
연결 | 원본 데이터 저장소에 대한 연결입니다. | <Oracle Cloud Storage 연결> | 예 | 연결 |
파일 경로 유형 | 원본 데이터를 가져오는 데 사용되는 파일 경로 형식입니다. | • 파일 경로 • 접두사 • 와일드카드 파일 경로 • 파일 목록 |
예 | / |
파일 경로의 경우 | ||||
버킷 | Oracle Cloud Storage 버킷 이름입니다. | <버킷 이름> | 예 | bucketName |
디렉터리 | 지정된 버킷 아래 폴더의 경로입니다. | <폴더 이름> | 아니요 | folderpath |
파일 이름 | 지정된 버킷 및 폴더 경로 아래에 있는 파일 이름입니다. | <파일 이름> | 아니요 | fileName |
접두사의 경우 | ||||
버킷 | Oracle Cloud Storage 버킷 이름입니다. | <버킷 이름> | 예 | bucketName |
Prefix | 지정된 버킷 아래의 Oracle Cloud Storage 키 이름 접두사로, 원본 Oracle Cloud Storage 파일을 필터링합니다. | <접두사> | 아니요 | prefix |
와일드카드 파일 경로의 경우 | ||||
버킷 | Oracle Cloud Storage 버킷 이름입니다. | <버킷 이름> | 예 | bucketName |
와일드카드 폴더 경로 | 지정된 버킷 아래에 와일드카드 문자가 포함된 폴더 경로로 원본 폴더를 필터링합니다. | <와일드카드 문자가 포함된 폴더 경로> | 아니요 | wildcardFolderPath |
와일드카드 파일 이름 | 원본 파일을 필터링하도록 지정된 버킷 및 폴더 경로(또는 와일드카드 폴더 경로) 아래에 와일드카드 문자가 있는 파일 이름입니다. | <와일드카드 문자가 포함된 파일 이름> | 예 | wildcardFileName |
파일 목록의 경우 | ||||
버킷 | Oracle Cloud Storage 버킷 이름입니다. | <버킷 이름> | 예 | bucketName |
디렉터리 | 지정된 버킷 아래 폴더의 경로입니다. | <폴더 이름> | 아니요 | folderpath |
파일 목록 경로 | 지정된 파일 집합을 복사하도록 나타냅니다. 복사할 파일 목록이 포함된 텍스트 파일을 한 줄에 한 파일씩 가리킵니다. | < 파일 목록 경로 > | 아니요 | fileListPath |
파일 형식 | 원본 데이터의 파일 형식입니다. 다양한 파일 형식에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요. | / | 예 | / |
재귀적 | 하위 폴더 또는 지정된 폴더에서만 데이터를 재귀적으로 읽을지 여부를 나타냅니다. 이 확인란을 선택하고 대상이 파일 기반 저장소인 경우 대상에 빈 폴더 또는 하위 폴더가 복사되거나 만들어지지 않습니다. | 선택됨(기본값) 또는 선택 취소 | 아니요 | 재귀 |
마지막으로 수정한 시간으로 필터링 | [시작 시간, 종료 시간) 범위에서 마지막으로 수정된 시간이 있는 파일은 추가 처리를 위해 필터링됩니다. 시간은 UTC 표준 시간대에 yyyy-mm-ddThh:mm:ss.fffZ 형식으로 적용됩니다. 이러한 속성은 건너뛸 수 있으며, 이는 파일 특성 필터가 적용되지 않음을 의미합니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다. |
날짜/시간 | 아니요 | modifiedDatetimeStart modifiedDatetimeEnd |
파티션 검색 사용 | 파일 경로에서 파티션을 구문 분석하고 다른 원본 열로 추가할지 여부를 나타냅니다. | 선택되거나 선택되지 않음(기본값) | 아니요 | enablePartitionDiscovery: true 또는 false(기본값) |
파티션 루트 경로 | 파티션 검색이 활성화된 경우, 파티션된 폴더를 데이터 열로 읽을 수 있는 절대 루트 경로를 지정합니다. | < 파티션 루트 경로 > | 아니요 | partitionRootPath |
최대 동시 연결 수 | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. | <최대 동시 연결 수> | 아니요 | maxConcurrentConnections |
추가 열 | 원본 파일의 상대 경로 또는 정적 값을 저장할 다른 데이터 열을 추가합니다. 식은 정적 값에 대해 지원됩니다. | • 이름 • 값 |
아니요 | additionalColumns: • 이름 • 값 |