다음 아키텍처에서는 Azure Data Factory 추출, 변환, 로드(ETL) 파이프라인에서 Delphix 연속 준수를 사용하여 중요한 데이터를 식별하고 마스킹하는 방법을 간략하게 설명합니다.
아키텍처
이 아키텍처의 Visio 파일을 다운로드합니다.
데이터 흐름
시나리오를 통한 데이터 흐름은 다음과 같습니다.
- Azure Data Factory는 데이터 복사 작업을 사용하여 원본 데이터 저장소에서 Azure Files의 컨테이너로 데이터를 추출합니다. 이 컨테이너를 원본 데이터 컨테이너라고 하며 데이터는 CSV 형식입니다.
- Data Factory는 Delphix 내에서 구성된 마스킹 작업 목록을 반복하는 반복기(ForEach 작업)를 시작합니다. 이러한 마스킹 작업은 미리 구성되며 원본 데이터 컨테이너에 있는 중요한 데이터를 마스킹합니다.
- 목록의 각 작업에 대해 마스킹 시작 작업은 Delphix CC 엔진에서 REST API 엔드포인트를 호출하여 마스킹 작업을 인증하고 시작합니다.
- Delphix CC 엔진은 원본 데이터 컨테이너에서 데이터를 읽고 마스킹 프로세스를 통해 실행됩니다.
- 이 마스킹 프로세스에서 Delphix는 메모리 내 데이터를 마스킹하고 결과 마스킹된 데이터를 대상 Azure Files 컨테이너(대상 데이터 컨테이너라고 함)에 다시 씁니다.
- 이제 Data Factory는 실행을 모니터링하는 두 번째 반복기(ForEach 작업)를 시작합니다.
- 시작된 각 실행(마스킹 작업)에 대해 상태 확인 작업을 통해 마스킹 결과를 확인합니다.
- 모든 마스킹 작업이 성공적으로 완료되면 Data Factory는 대상 데이터 컨테이너에서 지정된 대상으로 마스킹된 데이터를 로드합니다.
구성 요소
- Azure Data Factory 는 스케일 아웃 서버리스 데이터 통합 및 데이터 변환을 위한 ETL(추출, 변환, 로드) 서비스입니다. 코드가 필요 없는 UI로 직관적 작성 및 단일 창을 통한 모니터링 및 관리를 지원합니다.
- Azure Synapse Analytics는 데이터 통합, 엔터프라이즈 데이터 웨어하우징 및 빅 데이터 분석을 결합한 분석 서비스입니다. 여기에는 데이터 통합을 제공하는 Azure Data Factory 파이프라인이 포함됩니다.
- Azure Storage 는 원본 데이터 저장소에서 추출된 데이터와 대상 데이터 저장소에 로드될 마스킹된 데이터를 저장합니다.
- 선택 사항: Azure Virtual Network는 Azure Synapse 작업 영역의 일부가 아닌 Azure 리소스에 대한 프라이빗 네트워킹 기능을 제공합니다. 리소스 간의 액세스, 보안 및 라우팅을 관리할 수 있습니다.
- 기타 구성 요소: 원본 및 대상으로 사용되는 데이터 저장소를 기반으로 다른 구성 요소를 추가해야 할 수 있습니다. 이러한 데이터 저장소는 해당 요구 사항에 따라 달라질 수 있습니다.
대안
Microsoft Presidio를 사용하여 데이터 난독화를 수행할 수도 있습니다. 이 옵션 에 대한 자세한 내용은 Presidio - 데이터 보호 및 식별 해제 SDK를 참조하세요.
시나리오 정보
최근 몇 년 동안 데이터가 폭발적이었습니다. 데이터의 전략적 가치를 실현하려면 동적이고 이식 가능해야 합니다. 사일로에 있는 데이터의 전략적 가치를 제한하며 분석 을 위해 사용하기 어렵습니다.
데이터 사일로 분리가 어려운 이유는 다음과 같습니다.
- 공통 형식에 맞게 데이터를 조작해야 합니다. ETL 파이프라인은 각 레코드 시스템에 맞게 조정되어야 하며, 최신 기업의 대규모 데이터 세트를 지원하도록 크기를 조정해야 합니다.
- 데이터가 레코드 시스템에서 이동될 때 중요한 정보에 관한 규정 준수가 유지 관리되어야 합니다. 고객 콘텐츠 및 기타 중요한 요소는 데이터 집합의 비즈니스 값에 영향을 주지 않고 가려야 합니다.
Azure Data Factory란?
Azure Data Factory는 완전 관리형 서버리스 데이터 통합 서비스입니다. 이는 추가 비용 없이 100개 이상의 유지 관리가 필요하지 않은 기본 제공 커넥터와 데이터 원본을 통합하기 위한 다양한 시각적 환경을 제공합니다. ETL을 쉽게 생성하고 ELT(추출, 로드, 변환)는 직관적인 환경에서 코드 없는 프로세스를 처리하거나 사용자 고유의 코드를 작성합니다. 그런 다음, Azure Synapse Analytics에 통합 데이터를 제공하여 비즈니스 인사이트를 통해 데이터의 기능을 잠금 해제합니다. Data factory 파이프라인은 Azure Synapse Analytics에서도 사용할 수 있습니다.
Delphix CC(Delphix에 대한 지속적인 규정 준수)란?
Delphix에 대한 지속적인 규정 준수는 중요한 정보를 식별하고 데이터 마스킹을 자동화합니다. 조직에 필요한 안전한 데이터를 제공하는 빠르고 자동화된 API 기반 방법을 제공합니다.
Delphix CC 및 Data Factory는 어떻게 호환 데이터 자동화를 해결합니까?
보안 데이터의 이동은 모든 조직에서 어려운 작업입니다. Delphix를 사용하면 일관된 데이터 준수를 쉽게 달성할 수 있으며, Data Factory를 사용하면 데이터를 원활하게 연결하고 이동할 수 있습니다. Delphix와 Data Factory는 업계 최고의 규정 준수 및 자동화 제품을 결합하여 모든 사용자가 주문형 규격 데이터를 쉽게 제공할 수 있도록 합니다.
Data Factory에서 제공하는 데이터 원본 커넥터를 사용하여 다음 단계를 자동화하는 두 개의 ETL 파이프라인을 만들었습니다.
레코드 시스템에서 데이터를 읽고 Azure Blob Storage의 CSV 파일에 씁니다.
중요한 데이터를 포함할 수 있는 열을 식별하고 적절한 마스킹 알고리즘을 할당하기 위해 Delphix에 대한 지속적인 규정 준수에 필요한 항목을 제공합니다.
파일에 대해 Delphix 마스킹 작업을 실행하여 중요한 데이터 요소를 유사하지만 가상의 값으로 대체합니다.
Data Factory에서 지원하는 모든 데이터 저장소에 규격 데이터를 로드합니다.
잠재적인 사용 사례
산업별 솔루션을 위해 Azure Data Services를 안전하게 활성화
- 고객 콘텐츠를 식별하기 어려운 크고 복잡한 애플리케이션에서 중요한 데이터를 식별하고 마스킹합니다. Delphix를 사용하면 최종 사용자가 SAP, Salesforce 및 Oracle EBS와 같은 원본에서 Microsoft Synapse와 같은 고부가가치 서비스 계층으로 규정 준수 데이터를 자동으로 이동할 수 있습니다.
- Microsoft Azure에서 제공하는 강력하고 포괄적인 커넥터를 사용하여 데이터 출처에 관계없이 데이터를 안전하게 활용, 마스킹 및 마이그레이션할 수 있습니다.
데이터에 대한 복잡한 규정 준수 해결
- 데이터에 대한 모든 규정 요구 사항을 해결하기 위해 철저한 Delphix 알고리즘 프레임워크를 자동으로 배치합니다.
- CCPA, LGPD, HIPAA 등과 같은 규정 요구 사항에 대해 데이터 준비 규칙을 적용합니다.
"DevSecOps" 시프트를 왼쪽으로 가속화합니다.
- 중앙 Data Factory 파이프라인에서 중요한 데이터를 체계적이고 결정적으로 마스킹하여 개발자 및 분석 파이프라인(Azure DevOps, Jenkins, Harness) 및 기타 자동화 워크플로에 프로덕션 등급 데이터를 제공합니다.
- 데이터 원본 간에 데이터를 일관되게 마스킹하여 통합 애플리케이션 테스트를 위한 참조 무결성을 유지합니다. 예를 들어 George라는 이름은 항상 Elliot으로 마스킹되어야 하며, George와 그의 SSN이 Oracle, Salesforce 또는 SAP에 표시되는지 여부에 관계없이 지정된 SSN(사회 보장 번호)을 항상 동일한 SSN으로 마스킹해야 합니다.
규정 준수 분석을 사용하여 AI/ML 알고리즘 학습 시간 단축
- 학습 주기를 늘리지 않는 방식으로 데이터를 마스킹합니다.
- 모델/예측 정확도에 영향을 주지 않도록 마스킹하는 동안 데이터 무결성을 유지합니다.
모든 Azure 데이터 팩터리 또는 Azure Synapse Analytics 커넥터를 사용하여 지정된 사용 사례를 용이하게 할 수 있습니다.
주요 이점
- 범용 연결
- 참조 무결성을 유지하는 현실적이고 결정적인 마스킹
- 주요 엔터프라이즈 애플리케이션에 대한 중요한 데이터의 선제적 식별
- 네이티브 클라우드 실행
- 템플릿 기반 배포
- 확장성
예제 아키텍처
다음 예제는 익명의 고객이 제공했습니다. 이는 이 마스킹 사용 사례에 대한 환경을 설계하는 방법에 대한 샘플로만 사용됩니다.
위의 예제 아키텍처에서 다음을 수행합니다.
- Azure Data Factory 또는 Azure Synapse Analytics는 랜딩 존에서 마스크되지 않은 프로덕션 데이터를 수집/연결합니다.
- 데이터가 Azure Storage의 데이터 준비 프로세스로 이동됩니다.
- NFS에서 프로덕션 데이터를 Delphix CC POD에 탑재하면 파이프라인이 Delphix CC 서비스를 호출합니다.
- 마스킹된 데이터는 Data Factory 및 하위 환경 내에서 배포를 위해 반환됩니다.
고려 사항
이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.
보안
우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.
Delphix CC는 완전한 기능을 유지하는 실제 데이터로 데이터 값을 돌이킬 수 없게 마스킹하여 고품질 코드를 개발할 수 있습니다. 데이터를 사용자 사양으로 변환하는 데 사용할 수 있는 다양한 알고리즘 집합 중 Delphix CC에는 의도적으로 데이터 충돌을 생성하는 특허 알고리즘이 있으며, 동시에 마스킹된 데이터 집합에서 실행되는 잠재적 유효성 검사 루틴에 필요한 특정 값으로 데이터를 솔트할 수 있습니다. 제로 트러스트 관점에서 운영자는 실제 데이터를 마스킹하기 위해 실제 데이터에 액세스할 필요가 없습니다. 또한 A 지점에서 B 지점으로 마스킹된 데이터의 전체 제공은 API를 통해 자동화할 수 있습니다.
비용 최적화
비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.
Azure 가격 계산기에서 값을 조정하여 특정 요구 사항이 비용에 미치는 영향을 확인할 수 있습니다. Azure Synapse: 컴퓨팅 및 스토리지 수준을 독립적으로 확장할 수 있습니다. 컴퓨팅 리소스는 시간당 요금이 청구되며, 수요에 따라 이러한 리소스를 조정하거나 일시 중지할 수 있습니다. 스토리지 리소스는 테라바이트 단위로 요금이 청구되므로 수집하는 데이터의 양이 많을수록 비용이 증가합니다.
Data Factory 또는 Azure Synapse Analytics: 비용은 워크로드에서 수행되는 읽기/쓰기 작업, 모니터링 작업 및 오케스트레이션 작업의 수를 기반으로 합니다. 데이터 스트림이 추가되고 각 데이터 스트림에서 처리하는 데이터 양이 증가할 때마다 비용이 증가합니다.
Delphix CC: 시장에 출시된 다른 데이터 규정 준수 제품과 달리 마스킹에는 마스킹되는 환경의 전체 물리적 복사본이 필요하지 않습니다. 환경 중복도는 인프라를 설정하고 유지 관리하는 시간, 인프라 자체의 비용 및 물리적 데이터를 마스킹 환경에 반복적으로 로드하는 데 소요되는 시간으로 인해 비용이 매우 많이 들 수 있습니다.
성능 효율성
성능 효율성은 사용자가 배치된 요구 사항을 효율적인 방식으로 충족하기 위해 워크로드의 크기를 조정할 수 있는 기능입니다. 자세한 내용은 성능 효율성 핵심 요소 개요를 참조하세요.
Delphix CC는 수평 및 수직으로 확장할 수 있습니다. 변환은 메모리에서 발생하며 병렬 처리할 수 있습니다. 제품은 서비스 및 다중 노드 어플라이언스로 실행되어 애플리케이션에 따라 모든 크기의 솔루션 아키텍처를 허용합니다. Delphix는 대규모의 마스킹된 데이터 세트를 제공하는 시장의 선두 주자입니다.
작업에 여러 CPU 코어를 연결하도록 마스킹 스트림을 늘릴 수 있습니다. (메모리 할당을 변경하는 방법에 대한 구성 권장 사항 및 세부 정보는 https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/에서 확인할 수 있습니다).
1TB보다 큰 데이터 세트의 성능을 최적화하기 위해 Delphix 하이퍼스케일 마스킹 은 크고 복잡한 데이터 세트를 수많은 모듈로 분할한 다음 여러 연속 준수 엔진에서 마스킹 작업을 오케스트레이션합니다.
시나리오 배포
- Azure에 Delphix CC 엔진 배포
- Data Factory에서 Delphix 지속적인 규정 준수: 프로파일링(Delphix CC 프로파일링) 및 Delphix 지속적인 준수: 마스킹(Delphix CC 마스킹) Data Factory 템플릿을 모두 배포합니다. 이러한 템플릿은 Azure Synapse Analytics 및 Azure Data Factory 파이프라인 모두에서 작동합니다.
- 데이터 복사 구성 요소에서 원하는 원본 및 대상 데이터 저장소를 구성합니다. 웹 활동 구성 요소에서 Delphix 애플리케이션 IP 주소/호스트 이름 및 자격 증명을 입력하여 Delphix CC API로 인증합니다.
- 초기 설치를 위해 Delphix CC 프로파일링 Data Factory 템플릿을 실행하고 중요한 데이터를 정의하려는 경우(예: 스키마 변경이 있는 경우) 언제든지 실행합니다. 이 템플릿은 Delphix CC에 중요한 데이터가 포함될 수 있는 열을 검색하는 데 필요한 초기 구성을 제공합니다.
- 프로파일링하려는 데이터 컬렉션을 나타내는 규칙 집합을 만듭니다. Delphix UI에서 프로파일링 작업을 실행하여 해당 규칙 집합에 대한 중요한 필드를 식별 및 분류하고 적절한 마스킹 알고리즘을 할당합니다.
- 원하는 대로 인벤토리 화면에서 결과를 검토하고 수정합니다. 결과에 만족하고 그에 따라 마스킹하려는 경우 마스킹 작업 만듭니다.
- Data Factory UI로 돌아가서 Delphix CC 마스킹 데이터 팩터리 템플릿을 엽니다. 위의 단계에서 마스킹 작업 ID를 입력한 다음 템플릿을 실행합니다.
- 해당 단계가 끝나면 선택한 대상 데이터 저장소에 데이터를 마스킹합니다.
참고
Delphix API에 인증하려면 자격 증명이 있는 Delphix 애플리케이션 IP 주소 및 호스트 이름이 필요합니다.
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
주요 작성자:
- Tess Maggio | 제품 관리자 2
- Arun Saju | 선임 직원 엔지니어
- David Wells | 지속적인 규정 준수 제품 리더 선임 이사
기타 기여자:
- Jon Burchel | 선임 콘텐츠 개발자
- Abhishek Narain | 선임 프로그램 관리자
- Doug Smith | 글로벌 사례 감독, DevOps, CI/CD
- Michael Torok | 선임 이사, 커뮤니티 관리 및 환경
비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.
다음 단계
다음 Delphix 리소스를 참조하세요.
- Delphix CC를 사용하여 설정
- Delphix CC를 사용하여 중요한 데이터가 있는 위치를 찾는 방법에 대해 알아봅니다.
- Azure에서 Delphix를 사용하는 고객 참조
해당 솔루션의 주요 Azure 서비스에 대해 자세히 알아보기