다음을 통해 공유


Azure Data Factory 또는 Azure Synapse Analytics에서 SAP CDC 커넥터를 사용하여 SAP ODP 원본에서 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

이 문서에서는 매핑 데이터 흐름을 사용하여 SAP CDC 커넥터를 통해 SAP ODP 원본에서 데이터를 변환하는 방법을 간략하게 설명합니다. 자세한 내용은 Azure Data Factory 또는 Azure Synapse Analytics의 소개 문서를 참조하세요. Azure Data Factory 및 Azure Synapse Analytics를 사용한 데이터 변환에 대한 소개는 매핑 데이터 흐름 또는 매핑 데이터 흐름에 대한 자습서를 참조하세요.

SAP 데이터 통합 시나리오에 대한 전반적인 지원을 알아보려면 Azure Data Factory를 사용한 SAP 데이터 통합 백서에 설명된 각 SAP 커넥터의 자세한 소개, 비교 및 지침을 참조하세요.

지원되는 기능

이 SAP CDC 커넥터는 다음 기능에 대해 지원됩니다.

지원되는 기능 IR
매핑 데이터 흐름(원본/-) (1), (2)

① Azure 통합 런타임 ② 자체 호스팅 통합 런타임

이 SAP CDC 커넥터는 SAP ODP 프레임워크를 사용하여 SAP 원본 시스템에서 데이터를 추출합니다. 솔루션의 아키텍처에 대한 소개는 SAP 지식 센터에서 SAP CDC(변경 데이터 캡처) 소개 및 아키텍처를 참조하세요.

SAP ODP 프레임워크는 SAP ECC, SAP S/4HANA, SAP BW, SAP BW/4HANA, SLT(SAP LT) 복제 서버를 포함한 모든 최신 SAP NetWeaver 기반 시스템에 포함되어 있습니다. 필수 구성 요소 및 최소 필수 릴리스는 필수 구성 요소 및 구성을 참조하세요.

SNC가 구성된 경우 SAP CDC 커넥터는 기본 인증 또는 SNC(보안 네트워크 통신)를 지원합니다. SNC에 대한 자세한 내용은 RFC 통합을 위한 SAP SNC 시작 - SAP 블로그를 참조하세요.

현재 제한 사항

Data Factory에서 SAP CDC 커넥터의 현재 제한 사항은 다음과 같습니다.

  • Data Factory에서는 ODQ 구독을 다시 설정하거나 삭제할 수 없습니다. 이 목적을 위해서는 연결된 SAP 시스템의 ODQMON 트랜잭션을 사용합니다.
  • 솔루션과 함께 SAP 계층을 사용할 수 없습니다.

필수 조건

이 SAP CDC 커넥터를 사용하려면 SAP CDC 커넥터 필수 조건 및 설정을 참조하세요.

시작하기

파이프라인에 복사 작업을 수행하려면 다음 도구 또는 SDK 중 하나를 사용하면 됩니다.

UI를 사용하여 SAP CDC 커넥터에 대한 연결된 서비스 만들기

SAP CDC 연결된 서비스 준비에 설명된 단계에 따라 Azure Portal UI에서 SAP CDC 커넥터에 대한 연결된 서비스를 만듭니다.

데이터 세트 속성

SAP CDC 데이터 세트를 준비하려면 SAP CDC 원본 데이터 세트 준비를 따릅니다.

SAP CDC 커넥터를 사용하여 데이터 변환

원시 SAP ODP 변경 피드를 해석하고 이를 싱크에 올바르게 업데이트하는 것이 어려울 수 있습니다. 예를 들어, 변경 내용을 싱크에 올바르게 적용하려면 각 행과 관련된 기술 특성(예: ODQ_CHANGEMODE)을 이해해야 합니다. 또한 ODP에서 추출한 변경 데이터에는 동일한 키에 대한 여러 변경 내용(예: 동일한 판매 주문)이 포함될 수 있습니다. 따라서 변경 순서를 존중하는 동시에 변경 내용을 병렬로 처리하여 성능을 최적화해야 합니다. 또한 변경 데이터 캡처 피드를 관리하려면 오류 복구를 위한 기본 제공 메커니즘을 제공하기 위해 상태를 추적해야 합니다. Azure 데이터 팩터리 매핑 데이터 흐름은 이러한 모든 측면을 처리합니다. 따라서 SAP CDC 연결은 매핑 데이터 흐름 환경의 일부입니다. 따라서 사용자는 데이터 추출의 기술적 세부 사항에 신경 쓸 필요 없이 필요한 변환 논리에 집중할 수 있습니다.

시작하려면 매핑 데이터 흐름이 포함된 파이프라인을 만듭니다.

파이프라인의 데이터 흐름 추가 작업 스크린샷.

다음으로, SAP에서 추출된 데이터에 대한 중간 스토리지 역할을 하는 Azure Data Lake Gen2의 준비 연결 서비스 및 준비 폴더를 지정합니다.

참고 항목

  • 준비 연결된 서비스는 자체 호스팅 통합 런타임을 사용할 수 없습니다.
  • 준비 폴더는 SAP CDC 커넥터의 내부 스토리지로 간주되어야 합니다. SAP CDC 런타임을 더욱 최적화하기 위해 준비 데이터에 사용되는 파일 형식과 같은 구현 세부 정보가 변경될 수 있습니다. 따라서 준비 폴더를 다른 목적으로 사용하지 않는 것이 좋습니다. 다른 복사 작업이나 매핑 데이터 흐름의 원본으로 사용됩니다.

데이터 흐름 작업의 준비 폴더 지정 스크린샷.

검사점 키는 SAP CDC 런타임에서 변경 데이터 캡처 프로세스에 대한 상태 정보를 저장하는 데 사용됩니다. 예를 들어, 이를 통해 SAP CDC 매핑 데이터 흐름이 오류 상황에서 자동으로 복구되거나 특정 데이터 흐름에 대한 변경 데이터 캡처 프로세스가 이미 설정되었는지 여부를 알 수 있습니다. 따라서 각 원본에 고유한 검사점 키를 사용해야 합니다. 그렇지 않으면 한 원본의 상태 정보를 다른 원본이 덮어쓰게 됩니다.

참고 항목

  • 충돌을 방지하기 위해 기본적으로 고유 ID가 검사점 키로 생성됩니다.
  • 매개 변수를 사용하여 여러 원본에 대해 동일한 데이터 흐름을 활용하는 경우 원본별로 고유한 값으로 검사점 키를 매개 변수화해야 합니다.
  • SAP CDC 원본 내의 실행 모드모든 실행 시 전체로 설정된 경우 검사점 키 속성이 표시되지 않습니다(다음 섹션 참조). 이 경우 변경 데이터 캡처 프로세스가 설정되지 않았기 때문입니다.

데이터 흐름 작업의 검사점 키 속성 스크린샷.

매개 변수가 있는 검사점 키

검사점 키는 변경 데이터 캡처 프로세스의 상태를 관리하는 데 필요합니다. 효율적인 관리를 위해 검사점 키를 매개 변수화하여 다른 원본에 대한 연결을 허용할 수 있습니다. 매개 변수가 있는 검사점 키를 구현하는 방법은 다음과 같습니다.

  1. 전역 매개 변수를 만들어 파이프라인 수준에서 검사점 키를 저장하여 실행 간에 일관성을 유지합니다.

    "parameters": {
     "checkpointKey": {
         "type": "string",
         "defaultValue": "YourStaticCheckpointKey"
     }
    } 
    
  2. 실행할 때마다 원하는 값으로 파이프라인을 호출하도록 검사점 키를 프로그래밍 방식으로 설정합니다. 매개 변수가 있는 검사점 키를 사용하는 REST 호출의 예는 다음과 같습니다.

    PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.DataFactory/factories/{factoryName}/pipelines/{pipelineName}?api-version=2018-06-01
    Content-Type: application/json
    {
        "properties": {
            "activities": [
                // Your activities here
            ],
            "parameters": {
                "checkpointKey": {
                    "type": "String",
                    "defaultValue": "YourStaticCheckpointKey"
                }
            }
        }
    }
    

자세한 내용은 SAP CDC 커넥터에 대한 고급 항목을 참조하세요.

매핑 데이터 흐름 속성

SAP CDC 커넥터를 원본으로 사용하여 매핑 데이터 흐름을 만들려면 다음 단계를 완료합니다.

  1. ADF Studio에서 작성자 허브의 데이터 흐름 섹션으로 이동하고 ... 단추를 선택하여 데이터 흐름 작업 메뉴를 드롭다운하고 새 데이터 흐름 항목을 선택합니다. 데이터 흐름 캔버스의 상단 표시줄에 있는 데이터 흐름 디버그 단추를 사용하여 디버그 모드를 켭니다.

    매핑 데이터 흐름의 데이터 흐름 디버그 단추 스크린샷.

  2. 매핑 데이터 흐름 편집기에서 원본 추가를 선택합니다.

    매핑 데이터 흐름의 원본 추가 스크린샷

  3. 원본 설정 탭에서 준비된 SAP CDC 데이터 세트를 선택하거나 새로 만들기 단추를 선택하여 새로 만듭니다. 또는 원본 유형 속성에서 인라인을 선택하고 명시적 데이터 세트를 정의하지 않고 계속할 수도 있습니다.

    매핑 데이터 흐름 원본의 원본 설정에서 데이터 세트 선택 옵션의 스크린샷.

  4. 매핑 데이터 흐름이 실행될 때마다 전체 스냅샷을 로드하려면 원본 옵션 탭에서 모든 실행 시 전체 옵션을 선택합니다. 초기 전체 데이터 스냅샷을 포함하여 SAP 원본 시스템의 변경 피드를 구독하려는 경우 첫 번째 실행 시 전체 실행 후 증분 실행을 선택합니다. 이 경우 파이프라인의 첫 번째 실행은 델타 초기화를 수행합니다. 즉, 원본 시스템에 ODP 델타 구독을 만들고 현재 전체 데이터 스냅샷을 반환합니다. 후속 파이프라인 실행은 이전 실행 이후의 증분 변경 내용만 반환합니다. 증분 변경만 옵션은 첫 실행 시 초기 전체 데이터 스냅샷을 반환하지 않고 ODP 델타 구독을 만듭니다. 마찬가지로 후속 실행에서는 이전 실행 이후의 증분 변경 내용만 반환합니다. 두 증분 로드 옵션 모두 키 열 속성에서 ODP 원본 개체의 키를 지정해야 합니다.

    데이터 흐름 원본 매핑의 원본 옵션에 있는 실행 모드 속성의 스크린샷

    데이터 흐름 원본 매핑의 원본 옵션에서 선택한 키 열의 스크린샷

  5. 프로젝션, 최적화검사 탭의 경우 매핑 데이터 흐름을 따릅니다.

원본 분할을 통해 전체 또는 초기 로드 성능 최적화

실행 모드모든 실행 시 전체 또는 첫 번째 실행 시 전체 실행 후 증분 실행으로 설정된 경우 최적화 탭에서는 원본라는 선택 및 파티션 나누기 형식을 제공합니다. 이 옵션을 사용하면 여러 파티션(즉, 필터) 조건을 지정하여 대규모 원본 데이터 세트를 여러 개의 작은 부분으로 청크할 수 있습니다. 각 파티션에 대해 SAP CDC 커넥터는 SAP 원본 시스템에서 별도의 추출 프로세스를 트리거합니다.

매핑 데이터 흐름 원본 최적화의 분할 옵션 스크린샷

파티션의 크기가 동일한 경우 원본 분할을 통해 데이터 추출 처리량이 선형적으로 증가할 수 있습니다. 이러한 성능 개선을 달성하려면 SAP 원본 시스템, 자체 호스팅 통합 런타임을 호스트된 가상 머신 및 Azure Integration Runtime에 충분한 리소스가 필요합니다.