Azure Data Lake Storage 주요 고려 사항
Azure 데이터 레이크에 대한 주요 고려 사항에 대해 알아보세요.
수명 주기 관리
Azure Storage는 가능한 한 가장 비용 효율적인 방식으로 Blob 개체 데이터를 저장할 수 있도록 여러 액세스 계층을 제공합니다. 사용 가능한 액세스 계층은 다음과 같습니다.
- 핫: 자주 액세스되는 데이터를 저장하기에 최적화되었습니다.
- 쿨: 자주 액세스하지 않는 데이터를 저장하기에 최적화되었습니다. 데이터는 최소 30일 동안 저장됩니다.
- 콜드 계층: 자주 액세스하거나 수정하지 않는 데이터를 저장하기 위해 최적화되었습니다. 데이터는 90일 이상 저장됩니다. 콜드 계층은 쿨 계층에 비해 스토리지 비용이 낮고 액세스 비용은 높습니다.
- 보관: 거의 액세스하지 않는 데이터를 저장하기에 최적화되었습니다. 데이터는 몇 시간 단위로 유연한 대기 시간을 요구 사항으로 최소 180일 동안 저장됩니다.
Important
다양한 온라인 액세스 계층 간에 안정성, 보안, 운영 효율성 또는 성능 효율성 절충이 없으므로 워크로드 액세스 데이터 크기, 운영 상호 작용 및 Blob이 삭제되기 전 시간을 기준으로 Blob별로 온라인 계층을 금융 의사 결정으로 선택할 수 있습니다. 이전 요소의 계산에 따라 Blob당 올바른 계층을 선택합니다. 자세한 내용은 Azure Blob Storage에 대한 비용 계획 및 관리를 참조하세요.
액세스 계층을 사용하는 경우 다음 정보를 고려합니다.
핫 및 쿨 액세스 계층만 계정 수준에서 설정할 수 있습니다. 보관 액세스 계층은 계정 수준에서 사용할 수 없습니다.
핫, 쿨 및 보관 계층은 업로드 중 또는 업로드 후 Blob 수준에서 설정할 수 있습니다.
쿨 및 콜드 계층의 데이터는 가용성이 약간 낮지만 핫 계층 데이터와 동일한 높은 내구성, 검색 대기 시간 및 처리량 특성을 제공합니다. 쿨 또는 콜드 계층의 데이터의 경우 가용성이 약간 낮고 액세스 비용이 높을수록 핫 계층에 비해 전반적인 스토리지 비용이 낮아질 수 있습니다.
보관 스토리지는 데이터를 오프라인으로 저장하고 가장 저렴한 스토리지 비용을 제공합니다. 그러나 데이터 리하이드레이션 속도와 액세스 비용도 가장 높습니다.
자세한 내용은 Blob 데이터에 대한 액세스 계층을 참조하세요.
주의
클라우드 규모 분석의 경우 사용자 지정 마이크로 서비스를 사용하여 수명 주기 관리를 구현하고 사용자 검색 가능한 데이터를 쿨 저장소로 이동하는 것이 미치는 영향을 신중하게 고려하는 것이 좋습니다.
잘 알려진 워크로드의 경우 데이터 레이크의 섹션만 쿨 계층으로 이동해야 합니다.
데이터 레이크 연결
각 데이터 레이크는 데이터 랜딩 존의 가상 네트워크에 삽입된 프라이빗 엔드포인트를 사용해야 합니다. 랜딩 존 간 액세스를 제공하려면 가상 네트워크 피어링을 통해 데이터 랜딩 존을 연결합니다. 이 연결은 비용과 액세스 제어 측면 모두에서 최적의 솔루션이 됩니다.
자세한 내용은 프라이빗 엔드포인트 및 데이터 관리 랜딩 존에서 데이터 랜딩 존으로를 참조하세요.
Important
데이터 랜딩 존의 데이터는 영역 간의 가상 네트워크 피어링을 통해 다른 데이터 랜딩 존에서 액세스할 수 있습니다. 이 작업은 각 데이터 레이크 계정과 연결된 프라이빗 엔드포인트를 사용하여 수행됩니다. 레이크에 대한 모든 퍼블릭 액세스를 해제하고 프라이빗 엔드포인트를 사용하는 것이 좋습니다. 플랫폼 운영 팀은 데이터 랜딩 존 전반에서 네트워크 연결을 제어해야 합니다.
컨테이너에 대한 일시 삭제
컨테이너에 대한 일시 삭제는 실수 또는 악의적인 삭제로부터 데이터를 보호합니다. 저장소 계정에 컨테이너 일시 삭제를 사용하도록 설정하면 삭제된 컨테이너와 해당 콘텐츠가 선택한 기간 동안 Azure Storage에 유지됩니다. 데이터 보존 기간 중에는 이전에 삭제한 컨테이너를 복원할 수 있습니다. 컨테이너를 복원하면 삭제되었을 때 해당 컨테이너 안에 있던 모든 Blob이 복원됩니다.
엔드투엔드 Blob 데이터 보호를 달성하려면 다음 데이터 보호 기능을 사용하도록 설정합니다.
- 삭제된 컨테이너를 복원하기 위한 컨테이너 일시 삭제입니다. 컨테이너 일시 삭제를 사용하도록 설정하는 방법을 알아보려면 컨테이너에 대한 일시 삭제 사용 및 관리를 참조하세요.
- 삭제된 Blob 또는 버전을 복원하기 위한 Blob 일시 삭제입니다. Blob 일시 삭제를 사용하도록 설정하는 방법을 알아보려면 Blob에 대한 일시 삭제 사용 및 관리를 참조하세요.
Warning
스토리지 계정 삭제는 실행 취소할 수 없습니다. 컨테이너 일시 삭제는 저장소 계정 삭제에 대해 보호하는 것이 아니라 해당 계정의 컨테이너 삭제에 대해서만 보호합니다. 스토리지 계정이 삭제되지 않도록 보호하려면 스토리지 계정 리소스에 대한 잠금을 구성합니다. Azure Resource Manager 리소스 잠금에 대한 자세한 내용은 예기치 않은 변경을 방지하기 위한 리소스 잠금을 참조하세요.
모니터링
데이터 랜딩 존에서 분석을 위해 모든 모니터링을 Azure 랜딩 존 관리 구독 으로 보내야 합니다.
Azure Storage에서 사용하는 모니터링 데이터에 대해 알아보려면 Azure Monitor를 사용하여 Azure 리소스 모니터링 참조하세요. Azure Storage에서 만든 로그 및 메트릭에 대한 자세한 내용은 Azure Blob Storage 모니터링을 참조하세요.
서비스 엔드포인트에 대한 요청이 있는 경우에만 로그 항목이 만들어집니다. 기록된 인증된 요청 유형은 다음과 같습니다.
- 성공한 요청
- 실패한 요청(시간 제한, 제한, 네트워크, 권한 부여 및 기타 오류)
- 실패한 요청과 성공한 요청을 포함하여 SAS(공유 액세스 서명) 또는 OAuth를 사용하는 요청
$logs
컨테이너의 클래식 로그 데이터 및$metric
테이블의 클래스 메트릭 데이터와 같은 분석 데이터에 대한 요청
로그 만들기 또는 삭제와 같은 스토리지 서비스 자체에서 수행한 요청은 기록되지 않습니다. 기록된 익명 요청 유형은 다음과 같습니다.
- 성공한 요청
- 서버 오류
- 클라이언트와 서버 모두에 대한 시간 제한 오류
- 오류 코드 304(
Not Modified
)로 인해 HTTP GET 요청에 실패했습니다.
그 외의 실패한 익명 요청은 기록되지 않습니다.
Important
저장소를 감사하고 엔터프라이즈 규모의 관리 구독에 로그를 보내도록 기본 모니터링 정책을 설정합니다.
권장되는 데이터 레이크 영역 보안
각 데이터 레이크 영역에 권장되는 보안 패턴은 다음과 같습니다.
- 원시 사용은 SPN(보안 주체 이름)을 사용해야만 데이터에 액세스할 수 있습니다. 관리 ID를 사용하는 것이 좋습니다.
- 보강된 사용은 SPN(보안 주체 이름)을 사용해야만 데이터에 액세스할 수 있습니다. 관리 ID를 사용하는 것이 좋습니다.
- 큐레이팅된 사용을 사용하면 SPN(보안 주체 이름)과 UPN(사용자 계정 이름) 모두에 액세스할 수 있습니다.
자세한 내용은 Azure Data Lake Storage의 액세스 제어 모델을 참조하세요.