Azure Data Lake Storage에 대한 주요 고려 사항
Azure Storage는 데이터에 대한 다양한 스토리지 옵션을 제공합니다. 이 문서에서는 비용과 성능의 균형을 맞출 수 있도록 적절한 액세스 계층을 선택하는 데 도움이 되는 고려 사항을 제공합니다. 또한 액세스 계층을 효과적으로 사용하는 데 도움이 되는 기능 및 모범 사례를 포함하여 스토리지의 수명 주기 관리에 대해서도 설명합니다.
수명 주기 관리
Azure Storage는 Blob 개체 데이터를 저장하는 데 사용할 수 있는 다양한 액세스 계층을 제공합니다. 워크로드에 가장 적합한 계층을 선택하여 비용을 최적화합니다.
핫 계층 사용하여 자주 액세스되는 데이터를 저장합니다.
쿨 계층을(를) 사용하여 자주 액세스하지 않는 데이터를 저장하세요. 이 계층은 30일 이상 데이터를 저장합니다.
콜드 계층을 사용하여 드물게 액세스되거나 수정되는 데이터를 저장합니다. 이 계층은 90일 이상 데이터를 저장합니다. 콜드 계층은 쿨 계층에 비해 스토리지 비용이 낮고 액세스 비용은 높습니다.
보관 계층 사용하여 거의 액세스하지 않는 데이터를 저장합니다. 이 계층은 최소 180일 동안 데이터를 저장합니다. 이 데이터에 대한 액세스에는 유연한 대기 시간 요구 사항이 있을 수 있습니다. 즉, 데이터를 검색하는 데 몇 시간이 걸릴 수 있습니다.
Important
온라인 액세스 계층(핫, 쿨 및 콜드)에는 안정성, 보안, 운영 우수성 또는 성능 효율성 장단점이 없습니다. 따라서 각 Blob에 대한 비용을 기준으로 결정해야 합니다. 워크로드 접근 데이터 크기, 운영 상호 작용, 및 Blob이 삭제되기 전 시간을 고려하십시오. 이러한 요인에 따라 각 Blob에 대한 적절한 계층 선택합니다. 자세한 내용은 Azure Blob Storage에 대한 비용 계획 및 관리를 참조하세요.
액세스 계층을 사용하는 경우 다음 요소를 고려합니다.
계정 수준에서 핫 및 쿨 액세스 계층만 설정합니다. 계정 레벨은 아카이브 액세스 계층을 지원하지 않습니다.
업로드 중 또는 업로드 후 Blob 수준에서 핫, 쿨 및 보관 계층을 설정합니다.
쿨 및 콜드 계층의 데이터는 가용성이 약간 낮지만 이러한 계층은 높은 내구성, 검색 대기 시간 및 처리량과 같은 핫 계층과 유사한 기능을 제공합니다. 쿨 또는 콜드 계층의 데이터의 경우 핫 계층에 비해 스토리지 비용 절감을 위해 가용성이 낮고 액세스 비용이 높아질 수 있습니다.
보관 스토리지는 데이터를 오프라인으로 저장하고 가장 저렴한 스토리지 비용을 제공합니다. 그러나 가장 높은 데이터 리하일레이션 및 액세스 비용도 발생합니다.
자세한 내용은 Blob 데이터에 대한 액세스 계층을 참조하세요.
Important
클라우드 규모 분석의 경우 사용자 지정 마이크로 서비스를 사용하여 수명 주기 관리구현합니다. 사용자 검색 가능 데이터를 쿨 스토리지로 이동하는 것이 미치는 영향을 신중하게 고려합니다. 잘 이해된 워크로드에 대해서만 데이터 레이크의 섹션을 쿨 계층으로 이동합니다.
데이터 레이크 연결
각 데이터 레이크는 데이터 랜딩 존의 가상 네트워크에 통합된 프라이빗 엔드포인트를 사용해야 합니다. 랜딩 존 간 액세스를 제공하려면 가상 네트워크 피어링을 통해 데이터 랜딩 존을 연결합니다. 이 연결은 비용 및 액세스 제어 관점에서 최적의 솔루션을 제공합니다.
자세한 내용은 프라이빗 엔드포인트 및 데이터 관리 랜딩 존에서 데이터 랜딩 존으로를 참조하세요.
Important
데이터 랜딩 존은 가상 네트워크 피어링을 통해 다른 데이터 랜딩 존의 데이터에 액세스할 수 있습니다. 프라이빗 엔드포인트는 각 데이터 레이크 계정과 연결된 연결을 설정합니다. 레이크에 대한 모든 공용 액세스를 해제하고 프라이빗 엔드포인트를 사용하는 것이 좋습니다. 플랫폼 운영 팀은 데이터 랜딩 존 전반에서 네트워크 연결을 제어해야 합니다.
컨테이너에 대한 일시 삭제
컨테이너에 대한 소프트 삭제는 실수로 또는 악의적인 삭제로부터 데이터를 보호하는 데 도움이 됩니다. 스토리지 계정에 컨테이너 일시 삭제를 사용하도록 설정하면 Storage는 삭제된 컨테이너와 해당 콘텐츠를 지정된 기간 동안 유지합니다. 데이터 보존 기간 동안 이전에 삭제된 컨테이너를 복원할 수 있습니다. 이 작업은 삭제될 때 해당 컨테이너에 있던 Blob도 복원합니다.
다음 데이터 보호 기능을 사용하도록 설정하여 엔드 투 엔드 Blob 데이터 보호를 향상시킵니다.
컨테이너 일시 삭제를 사용하여 삭제된 컨테이너를 복원합니다. 자세한 내용은 컨테이너에 대한 소프트 삭제 사용 및 관리
을 참조하세요. Blob 일시 삭제를 사용하여 삭제된 Blob 또는 버전을 복원합니다. 자세한 내용은 Blob일시 삭제 사용 및 관리를 참조하세요.
Warning
스토리지 계정을 삭제한 후에는 삭제를 실행 취소할 수 없습니다. 컨테이너 일시 삭제는 스토리지 계정 삭제를 방지하지 않고 계정 내의 컨테이너 삭제에 대해서만 보호합니다. 스토리지 계정이 삭제되지 않도록 보호하려면 스토리지 계정 리소스에 대한 잠금을 구성합니다. 자세한 내용은예기치 않은 변경을 방지하기 위해
모니터링
데이터 랜딩 존에서는 분석을 위해 모든 모니터링을 Azure 랜딩 존 관리 구독으로 보냅니다.
자세한 내용은 Azure Monitor를 사용하여 Azure 리소스를 모니터링 및 Blob Storage 모니터링을 참조하세요.
로그 항목은 서비스 엔드포인트에 대한 요청에 대해서만 생성됩니다. 다음과 같은 유형의 인증된 요청이 기록됩니다.
- 성공한 요청
- 시간 초과, 스로틀링, 네트워크 문제, 권한 문제 및 기타 오류를 비롯한 실패한 요청
- 실패한 요청과 성공한 요청을 포함하여 SAS(공유 액세스 서명) 또는 OAuth를 사용하는 요청
-
$logs
컨테이너의 클래식 로그 데이터 및$metric
테이블의 클래스 메트릭 데이터와 같은 분석 데이터에 대한 요청
로그 만들기 또는 삭제와 같은 스토리지 서비스 자체에서 수행한 요청은 기록되지 않습니다. 다음과 같은 유형의 익명 요청이 기록됩니다.
- 성공한 요청
- 서버 오류
- 클라이언트와 서버 모두에 대한 시간 제한 오류
- 오류 코드 304(
Not Modified
)가 있는 실패한 HTTP GET 요청
실패한 다른 익명 요청은 기록되지 않습니다.
Important
저장소를 감사하고 엔터프라이즈 규모의 관리 구독에 로그를 보내도록 기본 모니터링 정책을 설정합니다.
데이터 레이크 영역 보안
데이터 레이크 영역에 대해 다음과 같은 보안 패턴을 사용하는 것이 좋습니다.
원시 사용량 SPN(보안 주체 이름)만 사용하여 데이터에 액세스할 수 있습니다. 관리 ID를 사용하는 것이 좋습니다.
확장된 사용 SPN만 사용함으로써 데이터에 접근할 수 있습니다. 관리 ID를 사용하는 것이 좋습니다.
선별된 사용 SPN과 사용자 계정 이름(UPN)을 사용하여 데이터에 액세스할 수 있습니다.
자세한 내용은 Data Lake Storage