복사 활동을 사용하여 데이터를 복사하는 방법

아티클
10/15/2024

데이터 파이프라인에서 복사 활동을 사용하여 클라우드에 있는 데이터 저장소 간에 데이터를 복사할 수 있습니다.

데이터를 복사한 후 다른 작업을 사용하여 추가 변환 및 분석을 수행할 수 있습니다. 복사 작업을 통해 BI(비즈니스 인텔리전스) 및 애플리케이션에서 사용할 수 있도록 변환 및 분석 결과를 게시할 수도 있습니다.

원본에서 대상으로 데이터를 복사하기 위해 복사 작업을 실행하는 서비스는 다음 단계를 수행합니다.

원본 데이터 저장소에서 데이터를 읽습니다.
직렬화/역직렬화, 압축/압축 해제, 열 매핑 등을 수행합니다. 구성에 따라 이러한 작업을 수행합니다.
대상 데이터 저장소에 데이터를 씁니다.

필수 조건

시작하려면 먼저 다음 필수 조건을 완료해야 합니다.

구독이 활성 상태인 Microsoft Fabric 테넌트 계정. 체험 계정을 만듭니다.
Microsoft Fabric 사용 작업 영역이 있는지 확인합니다.

복사 도우미를 사용하여 복사 작업 추가

복사 도우미를 사용하여 복사 작업을 설정하려면 다음 단계를 수행합니다.

복사 도우미 시작

기존 데이터 파이프라인을 열거나 새 데이터 파이프라인을 만듭니다.
캔버스에서 데이터 복사를 선택하여 복사 도우미 도구를 열어 시작합니다. 또는 리본의 활동 탭에 있는 데이터 복사 드롭다운 목록에서 복사 도우미 사용 을 선택합니다.

원본 구성

범주에서 데이터 원본 형식을 선택합니다. Azure Blob Storage를 예로 들어 보겠습니다. Azure Storage에서를 선택하고 다음을 선택합니다.
새 연결 만들기를 선택하여 데이터 원본에 대한 연결을 만듭니다.

새 연결 만들기를 선택한 후 필요한 연결 정보를 입력하고 다음을 선택합니다. 각 데이터 원본 유형에 대한 연결 만들기에 대한 자세한 내용은 각 커넥터 문서를 참조할 수 있습니다.

기존 연결이 있는 경우 기존 연결을 선택하고 드롭다운 목록에서 연결을 선택할 수 있습니다.
이 원본 구성 단계에서 복사할 파일 또는 폴더를 선택한 다음, 다음을 선택합니다.

대상 구성

범주에서 데이터 원본 형식을 선택합니다. Azure Blob Storage를 예로 들어 보겠습니다. 이전 섹션의 단계에 따라 새 Azure Blob Storage 계정에 연결되는 새 연결을 만들거나 연결 드롭다운 목록의 기존 연결을 사용할 수 있습니다. 테스트 연결 및 편집 기능은 선택한 각 연결에서 사용할 수 있습니다.
원본 데이터를 구성하고 대상에 매핑합니다. 그런 다음 다음을 선택하여 대상 구성을 완료합니다.

참고 항목

동일한 복사 작업 내에서는 단일 온-프레미스 데이터 게이트웨이만 사용할 수 있습니다. 원본 및 싱크가 모두 온-프레미스 데이터 원본인 경우 동일한 게이트웨이를 사용해야 합니다. 서로 다른 게이트웨이를 사용하는 온-프레미스 데이터 원본 간에 데이터를 이동하려면 첫 번째 게이트웨이를 사용하여 한 복사 작업 중간 클라우드 원본으로 복사해야 합니다. 그런 다음 다른 복사 작업 사용하여 두 번째 게이트웨이를 사용하여 중간 클라우드 원본에서 복사할 수 있습니다.

복사 작업 검토 및 만들기

이전 단계에서 복사 작업 설정을 검토하고 확인을 선택하여 완료합니다. 또는 도구에서 필요한 경우 이전 단계로 돌아가 설정을 편집할 수 있습니다.

완료되면 복사 작업이 데이터 파이프라인 캔버스에 추가됩니다. 이 복사 작업에 대한 고급 설정을 비롯한 모든 설정은 탭에서 선택할 수 있습니다.

이제 이 단일 복사 작업으로 데이터 파이프라인을 저장하거나 데이터 파이프라인을 계속 디자인할 수 있습니다.

복사 작업 직접 추가

복사 작업을 직접 추가하려면 다음 단계를 수행합니다.

복사 작업을 추가합니다.

기존 데이터 파이프라인을 열거나 새 데이터 파이프라인을 만듭니다.
파이프라인 활동 추가>활동 복사를 선택하거나 활동 탭에서 데이터 복사>캔버스에 추가를 선택하여 복사 활동을 추가합니다.

일반 탭에서 일반 설정 구성

일반 설정을 구성하는 방법을 알아보려면 일반을 참조하세요.

원본 탭에서 원본 구성

연결 옆에 있는 + 새로 만들기를 선택하여 데이터 원본에 대한 연결을 만듭니다.
1. 팝업 창에서 데이터 원본 형식을 선택합니다. Azure SQL 데이터베이스를 예로 들어보겠습니다. Azure SQL Database를 선택한 다음, 계속을 선택합니다.
2. 연결 만들기 페이지로 이동합니다. 패널에 필요한 연결 정보를 입력한 다음 만들기를 선택합니다. 각 데이터 원본 유형에 대한 연결 만들기에 대한 자세한 내용은 각 커넥터 문서를 참조할 수 있습니다.
3. 연결이 성공적으로 만들어지면 데이터 파이프라인 페이지로 돌아갑니다. 그런 다음 새로 고침을 선택하여 드롭다운 목록에서 만든 연결을 가져옵니다. 이전에 이미 만든 경우 드롭다운에서 직접 기존 Azure SQL 데이터베이스 연결을 선택할 수도 있습니다. 테스트 연결 및 편집 기능은 선택한 각 연결에서 사용할 수 있습니다. 그런 다음 연결 유형에서 Azure SQL 데이터베이스를 선택합니다.
복사할 테이블을 지정합니다. 데이터 미리 보기를 선택하여 원본 테이블을 미리 봅니다. 쿼리 및 저장 프로시저를 사용하여 원본에서 데이터를 읽을 수도 있습니다.
고급을 확장하면 고급 설정이 표시됩니다.

대상 탭에서 대상 구성

대상 유형을 선택합니다. Lakehouse와 같은 작업 영역의 내부 퍼스트 클래스 데이터 저장소 또는 외부 데이터 저장소일 수 있습니다. Lakehouse를 예로 사용합니다.
작업 영역 데이터 저장소 형식에서 Lakehouse를 사용하도록 선택합니다. + 새로 만들기를 선택하면 Lakehouse 만들기 페이지로 이동합니다. Lakehouse 이름을 지정한 다음 새로 만들기를 선택합니다.
연결이 성공적으로 만들어지면 데이터 파이프라인 페이지로 돌아갑니다. 그런 다음 새로 고침을 선택하여 드롭다운 목록에서 만든 연결을 가져옵니다. 이전에 이미 만든 경우 드롭다운에서 직접 기존 Lakehouse 연결을 선택할 수도 있습니다.
테이블을 지정하거나 파일 경로를 설정하여 파일 또는 폴더를 대상으로 정의합니다. 여기에서 테이블을 선택하고 데이터를 쓸 테이블을 지정합니다.
고급을 확장하면 고급 설정이 표시됩니다.

이제 이 단일 복사 작업으로 데이터 파이프라인을 저장하거나 데이터 파이프라인을 계속 디자인할 수 있습니다.

매핑 탭에서 매핑 구성

적용하는 커넥터가 매핑을 지원하는 경우 매핑 탭으로 이동하여 매핑을 구성할 수 있습니다.

스키마 가져오기를 선택하여 데이터 스키마를 가져옵니다.
자동 매핑이 표시되는 것을 확인할 수 있습니다. 원본 열과 대상 열을 지정합니다. 대상에 새 테이블을 만드는 경우 여기에서 대상 열 이름을 사용자 지정할 수 있습니다. 기존 대상 테이블에 데이터를 쓰려는 경우 기존 대상 열 이름을 수정할 수 없습니다. 원본 및 대상 열의 유형을 볼 수도 있습니다.

또한 + 새 매핑을 선택하여 새 매핑을 추가하고, 지우기를 선택하여 모든 매핑 설정을 지우고, 다시 설정을 선택하여 모든 매핑 원본 열을 다시 설정할 수 있습니다.

설정 탭에서 다른 설정 구성

설정 탭에는 성능, 스테이징 등의 설정이 포함되어 있습니다.

각 설정에 대한 설명은 다음 표를 참조하세요.

설정	설명	JSON 스크립트 속성
지능형 처리량 최적화	처리량을 최적화하도록 지정합니다. 다음 중에서 선택할 수 있습니다. • 자동 • 표준 • 밸런스형 • 최대 자동을 선택하면 원본-대상 쌍 및 데이터 패턴에 따라 최적의 설정이 동적으로 적용됩니다. 처리량을 사용자 지정할 수도 있으며 사용자 지정 값은 2~256로 지정할 수 있지만 값이 높을수록 더 많은 이익을 얻을 수 있습니다.	dataIntegrationUnits
복사 병렬 처리 수준	데이터 로드에서 사용할 병렬 처리 수준을 지정합니다.	parallelCopies
내결함성	이 옵션을 선택하면 복사 프로세스 도중에 발생한 일부 오류를 무시할 수 있습니다. 예를 들어 원본과 대상 저장소 간의 호환되지 않는 행, 데이터 이동 중에 삭제되는 파일 등이 있습니다.	• enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName
로깅 사용	이 옵션을 선택하면 복사한 파일, 건너뛴 파일 및 행을 기록할 수 있습니다.	/
준비 사용	중간 준비 저장소를 통해 데이터를 복사할지 여부를 지정합니다. 유익한 시나리오에 대해서만 스테이징을 사용하도록 설정합니다.	enableStaging
데이터 저장소 형식	스테이징을 사용하도록 설정하면 작업 영역 및 외부를 데이터 저장소 유형으로 선택할 수 있습니다.	/
작업 영역의 경우
작업 영역	기본 제공 스테이징 스토리지를 사용하도록 지정합니다.	/
외부의 경우
스테이징 계정 연결	중간 스테이징 저장소로 사용하는 저장소 인스턴스를 참조하는 Azure Blob 저장소 또는 Azure Data Lake 저장소 Gen2의 연결을 지정합니다. 스테이징 연결이 없는 경우 만듭니다.	연결(`externalReferences` 아래)
스토리지 경로	준비 데이터를 포함할 경로를 지정합니다. 경로를 제공하지 않으면 서비스는 임시 데이터를 저장하는 컨테이너를 만듭니다. 공유 액세스 서명을 포함한 스토리지를 사용하거나 특정 위치에 임시 데이터가 필요한 경우에만 경로를 지정합니다.	경로
압축 사용	대상을 복사하기 전에 데이터 압축 여부를 지정합니다. 이 설정은 전송되는 데이터 양을 줄입니다.	enableCompression

Preserve	데이터를 복사하는 동안 메타데이터/ACL을 유지할지 여부를 지정합니다.	보존

참고 항목

압축이 활성화된 상태에서 준비된 복사본을 사용하는 경우, 스테이징 Blob 연결을 위한 서비스 주체 인증은 지원되지 않습니다.

복사 작업에서 매개 변수 구성

매개 변수를 사용하여 파이프라인 및 해당 활동의 동작을 제어할 수 있습니다. 동적 콘텐츠 추가를 사용하여 복사 작업 속성에 대한 매개 변수를 지정할 수 있습니다. Lakehouse/Data Warehouse/KQL 데이터베이스를 예제로 지정하여 사용 방법을 살펴보겠습니다.

원본 또는 대상에서 작업 영역을 데이터 저장소 유형으로 선택하고 Lakehouse/Data Warehouse/KQL Database를 작업 영역 데이터 저장소 유형으로 지정한 후 Lakehouse 또는 Data Warehouse 또는 KQL 데이터베이스의 드롭다운 목록에서 동적 콘텐츠 추가를 선택합니다.
팝업 동적 콘텐츠 추가 창의 매개 변수 탭에서 +를 선택합니다.
매개 변수의 이름을 지정하고 원하는 경우 기본값을 지정하거나 파이프라인에서 실행을 선택한 후 매개 변수의 값을 지정할 수 있습니다.

매개 변수 값은 Lakehouse/Data Warehouse/KQL 데이터베이스 개체 ID여야 합니다. Lakehouse/Data Warehouse/KQL 데이터베이스 개체 ID를 가져오려면 작업 영역에서 Lakehouse/Data Warehouse/KQL 데이터베이스를 열고 ID는 URL 이후 /lakehouses/, /datawarehouses/ 또는 /databases/ URL에 있습니다.
- Lakehouse 개체 ID:
- Data Warehouse 개체 ID:
- KQL 데이터베이스 개체
저장을 선택하여 동적 콘텐츠 추가 창으로 돌아갑니다. 그런 다음 식 상자에 표시되도록 매개 변수를 선택합니다. 그런 다음 확인을 선택합니다. 파이프라인 페이지로 돌아가서 Lakehouse 개체 ID/Data Warehouse 개체 ID/KQL 데이터베이스 개체 ID 다음에 매개 변수 식이 지정된 것을 볼 수 있습니다.

다음을 통해 공유

복사 활동을 사용하여 데이터를 복사하는 방법

필수 조건