많은 기업에서 SAP는 가장 중요 업무용 애플리케이션이며 광범위한 데이터에 대한 기본 레코드 시스템입니다. 기업은 SAP 및 업스트림/다운스트림 애플리케이션의 분석에 대한 통찰력 있는 데이터를 비용 효율적이고 확장 가능하며 유연한 방식으로 활용할 수 있어야 합니다. 동시에 기업은 이 데이터가 무수한 규정을 준수하는지 확인해야 합니다.
아키텍처
다음 아키텍처에서는 Azure 데이터 팩터리/Azure Synapse 파이프라인에서 Delphix CC를 사용하여 중요한 데이터를 식별하고 마스킹하는 방법을 간략하게 설명합니다.
이 아키텍처의 Visio 파일을 다운로드합니다.
Azure Data Factory란?
Azure Data Factory는 완전 관리형 서버리스 데이터 통합 서비스입니다. 이는 추가 비용 없이 100개 이상의 유지 관리가 필요하지 않은 기본 제공 커넥터와 데이터 원본을 통합하기 위한 다양한 시각적 환경을 제공합니다. ETL(추출, 변환, 로드)을 쉽게 구성하고 ELT(추출, 로드, 변환)는 직관적인 환경에서 코드 없는 프로세스를 처리하거나 고유한 코드를 작성합니다. 그런 다음, Azure Synapse Analytics에 통합 데이터를 제공하여 비즈니스 인사이트를 통해 데이터의 기능을 잠금 해제합니다.
Delphix CC(Delphix에 대한 지속적인 규정 준수)란?
Delphix CC(Delphix 지속적인 규정 준수) 는 중요한 정보를 식별하고 데이터 마스킹/스크램블링을 자동화합니다. 조직에 필요한 안전한 데이터를 제공하는 빠르고 자동화된 API 기반 방법을 제공합니다.
Delphix CC 및 Azure Data Factory는 어떻게 호환 데이터 자동화를 해결합니까?
보안 데이터의 이동은 모든 조직에서 어려운 작업입니다. Delphix를 사용하면 일관된 데이터 준수를 쉽게 달성할 수 있으며, Azure Data Factory를 사용하면 데이터를 원활하게 연결하고 이동할 수 있습니다. Delphix CC와 Azure Data Factory는 업계 최고의 규정 준수 및 자동화 제품을 결합하여 모든 사용자가 주문형 규격 데이터를 쉽게 제공할 수 있도록 합니다.
Azure Data Factory에서 제공하는 데이터 원본 커넥터를 사용하여 최종 사용자가 다음 단계를 자동화할 수 있는 ETL 파이프라인을 만들었습니다.
- 레코드 시스템(SAP HANA)에서 데이터를 읽고 Azure Storage의 CSV 파일에 씁니다.
- 파일에 대해 Delphix 마스킹 작업을 실행하여 중요한 데이터 요소를 유사하지만 가상의 값으로 대체합니다.
- Azure Synapse Analytics에 규격 데이터를 로드합니다.
데이터 흐름
시나리오를 통한 데이터 흐름은 다음과 같습니다.
- Azure Data Factory는 데이터 복사 작업을 사용하여 SAP HANA(원본 데이터 저장소)에서 Azure Files의 컨테이너로 데이터를 추출합니다. 이 컨테이너를 원본 데이터 컨테이너라고 하며 데이터는 CSV 형식입니다. SAP HANA 커넥터를 사용하려면 자체 호스팅 통합 런타임을 사용하는 것이 좋습니다. 자세한 내용은 이 방법 가이드 를 참조하세요.
- 데이터 팩터리는 Delphix 내에서 구성된 마스킹 작업 목록을 반복하는 반복기(ForEach 작업)를 시작합니다. 이러한 마스킹 작업은 미리 구성되며 원본 데이터 컨테이너에 있는 중요한 데이터를 마스킹합니다.
- 목록의 각 작업에 대해 마스킹 시작 작업은 Delphix CC 엔진에서 REST API 엔드포인트를 호출하여 마스킹 작업을 인증하고 시작합니다.
- Delphix CC 엔진은 원본 데이터 컨테이너에서 데이터를 읽고 마스킹 프로세스를 통해 실행됩니다.
- 이 마스킹 프로세스에서 Delphix는 메모리의 데이터를 마스킹하고 결과 마스킹된 데이터를 대상 Azure Files 컨테이너(대상 데이터 컨테이너라고 함)에 다시 씁니다.
- 이제 데이터 팩터리는 실행을 모니터링하는 두 번째 반복기(ForEach 작업)를 시작합니다.
- 시작된 각 실행(마스킹 작업)에 대해 상태 확인 작업을 통해 마스킹 결과를 확인합니다.
- 모든 마스킹 작업이 성공적으로 완료되면 데이터 팩터리는 대상 데이터 컨테이너에서 Azure Synapse Analytics로 마스킹된 데이터를 로드합니다.
구성 요소
- Azure Data Factory 는 스케일 아웃 서버리스 데이터 통합 및 데이터 변환을 위한 ETL(추출, 변환, 로드) 서비스입니다. 코드가 필요 없는 UI로 직관적 작성 및 단일 창을 통한 모니터링 및 관리를 지원합니다.
- Azure Storage 는 sourandce 데이터 저장소에서 추출된 데이터와 대상 데이터 저장소에 로드될 마스킹된 데이터를 저장합니다.
- 리소스 그룹은 Azure 리소스에 대한 논리 컨테이너입니다. 리소스 그룹은 Azure 콘솔에서 이 프로젝트와 관련된 모든 항목을 구성합니다.
- 자체 호스팅 통합 런타임 을 설정해야 하며 SAP HANA에서 데이터 추출을 위해 SAP HANA ODBC 드라이버를 설치해야 합니다.
- 선택 사항: Azure Virtual Network는 Azure Synapse 작업 영역의 일부가 아닌 Azure 리소스에 대한 프라이빗 네트워킹 기능을 제공합니다. 리소스 간의 액세스, 보안 및 라우팅을 관리할 수 있습니다.
잠재적인 사용 사례
- SAP 애플리케이션(여기에 설명된 아키텍처는 HANA 백 엔드를 사용하는 SAP 애플리케이션과 관련된 아키텍처)에서 Microsoft Synapse로 자동으로 이동하여 분석가에게 비용에 민감하고 빠르고 확장 가능한 방식으로 테스트하는 데 필요한 데이터를 가져옵니다. 분 단위로 수백만 개의 스크램블링 작업을 수행합니다.
- 데이터에 대한 모든 규정 요구 사항(예: GDPR(일반 데이터 보호 규정), CCPA, LGPD 및 HIPAA 준수)을 해결하기 위해 철저한 Delphix 알고리즘 프레임워크를 자동으로 배치합니다.
- 통합 애플리케이션 테스트에 대한 참조 무결성을 유지하면서 데이터 원본 간에 데이터를 일관되게 마스크/스크램블합니다. 예를 들어 George라는 이름은 항상 엘리엇으로 마스킹되어야 합니다. 또는 지정된 SSN(사회 보장 번호)은 조지와 그의 SSN이 SAP, Oracle, Salesforce 또는 기타 애플리케이션에 표시되는지 여부에 관계없이 항상 동일한 가상의 SSN으로 마스킹되어야 합니다.
- 학습 주기를 증가하지 않고 모델 또는 예측 정확도에 영향을 주지 않는 방식으로 데이터를 마스크/스크램블합니다.
- 원본 커넥터를 변경하기만 하면 온-프레미스와 클라우드 모두에서 작동하는 솔루션을 구성합니다. 예를 들어 온-프레미스 SAP 애플리케이션에서 데이터를 가져오고, 해당 데이터를 클라우드에 복제하고, Synapse로 로드하기 전에 규정 준수를 보장할 수 있습니다.
주요 이점
- 참조 무결성을 유지하는 현실적이고 결정적인 마스킹/스크램블링
- 가장 일반적인 SAP 테이블 및 모듈에 대한 중요한 데이터의 선점적 식별
- 네이티브 클라우드 실행
- 템플릿 기반 배포
- 확장성
- 비용이 많이 드는 메모리 내 HANA HW에 대한 저렴한 대안
시작
- Azure에 Delphix CC 엔진을 배포합니다.
- Azure Data Factory에서 Delphix 템플릿을 사용하여 Delphix 및 중요한 데이터 검색을 사용하여 데이터 마스킹을 배포합니다. 참고: 이러한 템플릿은 Azure Synapse Analytics 파이프라인과 Azure Data Factory 파이프라인 모두에서 작동합니다.
- SAP HANA에서 데이터를 추출하는 방법에 대해 자세히 설명한 대로 자체 호스팅 통합 런타임을 설정합니다.
- 데이터 복사 구성 요소에서 추출 단계에서 원하는 원본을 SAP HANA로 구성하고 로드 단계에서 Synapse를 원하는 대상으로 구성합니다. 웹 활동 구성 요소에서 Delphix 애플리케이션 IP 주소 /호스트 이름 및 자격 증명을 입력하여 Delphix CC API로 인증합니다.
- Delphix Azure Data Factory 템플릿을 사용하여 중요한 데이터 검색을 실행하여 초기 설정을 수행하고, 중요한 데이터를 미리 식별할 수 있습니다(예: 스키마 변경이 있는 경우). 이 템플릿은 중요한 데이터를 포함할 수 있는 열을 검색하는 데 필요한 초기 구성을 Delphix CC에 제공합니다. 이를 SAP용 Delphix 준수 가속기, 미리 식별된 중요한 필드 및 마스킹 알고리즘과 함께 사용하여 핵심 SAP 테이블(예: Finance, HR 및 Logistics 모듈)의 데이터를 보호할 수도 있습니다. 이 옵션에 관심이 있는 경우 Delphix에 문의하세요.
- 프로파일링 하려는 데이터의 컬렉션을 나타내는 규칙 집합 을 만듭니다. Delphix UI에서 프로파일링 작업을 실행하여 해당 규칙 집합에 대한 중요한 필드를 식별 및 분류하고 적절한 마스킹 알고리즘을 할당합니다.
- 템플릿을 실행합니다. 완료되면 Azure Synapse Analytics에서 마스킹된 데이터(SAP용 Delphix Compliance Accelerator에 의해 상위 테이블/모듈에 미리 지정된 데이터)가 생성됩니다.
고려 사항
이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.
보안
우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.
Delphix CC는 완전한 기능을 유지하는 실제 데이터로 데이터 값을 돌이킬 수 없게 마스킹하여 고품질 코드를 개발할 수 있습니다. 데이터를 사용자 사양으로 변환하는 데 사용할 수 있는 다양한 알고리즘 집합 중 Delphix CC에는 의도적으로 데이터 충돌을 생성하는 특허 받은 알고리즘이 있으며, 동시에 마스킹된 데이터 집합에서 실행되는 잠재적 유효성 검사 루틴에 필요한 특정 값으로 데이터를 솔트할 수 있습니다. 제로 트러스트 관점에서 운영자는 실제 데이터를 마스킹하기 위해 실제 데이터에 액세스할 필요가 없습니다. 또한 A 지점에서 B 지점으로 마스킹된 데이터의 전체 제공은 API를 통해 자동화할 수 있습니다.
비용 최적화
비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.
Azure 가격 계산기에서 값을 조정하여 특정 요구 사항이 비용에 미치는 영향을 확인할 수 있습니다.
Azure Synapse: 컴퓨팅 및 스토리지 수준을 독립적으로 확장할 수 있습니다. 컴퓨팅 리소스는 시간당 요금이 청구되며, 수요에 따라 이러한 리소스를 조정하거나 일시 중지할 수 있습니다. 스토리지 리소스는 테라바이트 단위로 요금이 청구되므로 수집하는 데이터의 양이 많을수록 비용이 증가합니다.
Data Factory: 비용은 워크로드에서 수행되는 읽기/쓰기 작업, 모니터링 작업 및 오케스트레이션 작업의 수를 기반으로 합니다. 데이터 팩터리 비용은 각 추가 데이터 스트림 및 각 데이터 스트림에서 처리되는 데이터의 양에 따라 증가합니다.
Delphix CC: 시장에 출시된 다른 데이터 규정 준수 제품과 달리 마스킹에는 마스킹되는 환경의 전체 물리적 복사본이 필요하지 않습니다. 인프라를 설정하고 유지 관리하는 시간, 인프라 자체의 비용 및 물리적 데이터를 마스킹 환경에 반복적으로 로드하는 데 소요되는 시간 때문에 환경 중복성이 비용이 많이 들 수 있습니다.
성능 효율성
성능 효율성은 사용자가 배치된 요구 사항을 효율적인 방식으로 충족하기 위해 워크로드의 크기를 조정할 수 있는 기능입니다. 자세한 내용은 성능 효율성 핵심 요소 개요를 참조하세요.
Delphix CC는 수평 및 수직으로 확장할 수 있습니다. 변환은 메모리에서 발생하며 병렬 처리할 수 있습니다. 제품은 서비스 및 다중 노드 어플라이언스로 실행되어 애플리케이션에 따라 모든 크기의 솔루션 아키텍처를 허용합니다. Delphix는 마스킹된 대규모 데이터 세트를 제공하는 시장의 선두 주자입니다.
작업에 여러 CPU 코어를 연결하도록 마스킹 스트림을 늘릴 수 있습니다. (구성 권장 사항 및 메모리 할당을 변경하는 방법은 다음에서 https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/찾을 수 있습니다. )
1TB보다 큰 데이터 세트의 성능을 최적화하기 위해 Delphix 하이퍼스케일 마스킹 은 크고 복잡한 데이터 세트를 수많은 모듈로 분할한 다음 여러 연속 준수 엔진에서 마스킹 작업을 오케스트레이션합니다.
참가자
이 문서는 다음 기여자가 작성했습니다.
주요 작성자:
- Tess Maggio – Product Manager 2
- Arun Saju – 선임 직원 엔지니어
- Mick Shieh – SAP 글로벌 연습 리더
기타 기여자:
- Michael Torok – 디지털 고객 환경 수석 이사
- Abhishek Narain - 선임 프로그램 관리자
- Jon Burchel - 선임 콘텐츠 개발자
다음 단계
- Delphix CC를 사용하여 설정
- SAP 및 기타 데이터 원본에서 일관된 데이터 마스킹에 대해 알아보기
- Azure에서 Delphix를 사용하는 고객 참조