리소스 집합 이해
이 문서는 Microsoft Purview가 리소스 집합을 사용하여 데이터 자산을 논리 리소스에 매핑하는 방법을 이해하는 데 도움이 됩니다.
중요
고급 리소스 집합 기능은 클래식 Microsoft Purview를 사용하거나 고급 리소스 집합을 사용하도록 설정된 Microsoft Purview 통합 카탈로그 클래식 계정을 업그레이드하는 기존 고급 리소스 집합 고객에게만 적용됩니다. 이 기능은 통합 카탈로그 사용하여 Microsoft Purview의 신규 고객에게는 제공되지 않습니다.
배경 정보
대규모 데이터 처리 시스템은 일반적으로 스토리지에 단일 테이블을 여러 파일로 저장합니다. Microsoft Purview 통합 카탈로그 이 개념은 리소스 집합을 사용하여 표시됩니다. 리소스 집합은 저장소에 있는 많은 수의 자산을 나타내는 카탈로그의 단일 개체입니다.
예를 들어 Spark 클러스터가 DataFrame을 ADLS(Azure Data Lake Storage) Gen2 데이터 원본에 유지했다고 가정합니다. Spark에서 테이블은 단일 논리 리소스처럼 보이지만 디스크에는 수천 개의 Parquet 파일이 있을 수 있으며, 각 파일은 총 DataFrame 콘텐츠의 파티션을 나타냅니다. IoT 데이터와 웹 로그 데이터에는 동일한 문제가 있습니다. 로그 파일을 초당 여러 번 출력하는 센서가 있다고 상상해 보십시오. 해당 단일 센서에서 수십만 개의 로그 파일이 있을 때까지는 오래 걸리지 않습니다.
Microsoft Purview에서 리소스 집합을 검색하는 방법
Microsoft Purview는 Azure Blob Storage, ADLS Gen1, ADLS Gen2, Azure Files 및 Amazon S3에서 리소스 집합 검색을 지원합니다.
Microsoft Purview는 검사할 때 리소스 집합을 자동으로 검색합니다. 이 기능은 검사를 통해 수집되는 모든 데이터를 살펴보고 정의된 패턴 집합과 비교합니다.
예를 들어 URL이 인 데이터 원본을 검사한다고 가정합니다 https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet
. Microsoft Purview는 경로 세그먼트를 살펴보고 기본 제공 패턴과 일치하는지 확인합니다. GUID, 숫자, 날짜 형식, 지역화 코드(예: en-us) 등에 대한 기본 제공 패턴이 있습니다. 이 경우 숫자 패턴은 23과 일치합니다. Microsoft Purview는 이 파일이 라는 https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet
리소스 집합의 일부라고 가정합니다.
또는 와 같은 https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json
URL의 경우 Microsoft Purview는 지역화 패턴과 숫자 패턴을 모두 일치시키고 라는 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
리소스 집합을 생성합니다.
Microsoft Purview는 이 전략을 사용하여 다음 리소스를 동일한 리소스 집합 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
에 매핑합니다.
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Microsoft Purview가 리소스 집합으로 검색하지 않는 파일 형식
Microsoft Purview는 의도적으로 Word, Excel 또는 PDF와 같은 대부분의 문서 파일 형식을 리소스 집합으로 분류하지 않습니다. 일반적인 분할된 파일 형식이므로 CSV 형식은 예외입니다.
Microsoft Purview가 리소스 집합을 검사하는 방법
Microsoft Purview가 리소스 집합의 일부라고 생각되는 리소스를 검색하면 전체 검사에서 샘플 검사로 전환됩니다. 샘플 검사는 리소스 집합에 있다고 생각되는 파일의 하위 집합만 엽니다. 열리는 각 파일에 대해 해당 스키마를 사용하고 분류자를 실행합니다. 그런 다음 Microsoft Purview는 열린 리소스 중에서 최신 리소스를 찾고 카탈로그의 전체 리소스 집합에 대한 항목에서 해당 리소스의 스키마 및 분류를 사용합니다.
고급 리소스 집합
Microsoft Purview는 고급 리소스 집합 기능을 통해 리소스 집합 자산을 사용자 지정하고 더욱 보강할 수 있습니다. 고급 리소스 집합을 사용하면 Microsoft Purview가 수집된 데이터의 기본 파티션을 이해할 수 있으며 검사 중에 Microsoft Purview가 리소스 집합을 그룹화하는 방법을 사용자 지정하는 리소스 집합 패턴 규칙을 만들 수 있습니다.
고급 리소스 집합을 사용하도록 설정하면 Microsoft Purview는 추가 집계를 실행하여 리소스 집합 자산에 대한 다음 정보를 계산합니다.
- 리소스 집합을 구성하는 파일의 샘플 경로입니다.
- 리소스 집합을 구성하는 파일 수를 보여 주는 파티션 수입니다.
- 리소스 집합을 구성하는 모든 파일의 총 크기입니다.
이러한 속성은 리소스 집합의 자산 세부 정보 페이지에서 찾을 수 있습니다.
고급 리소스 집합 켜기
고급 리소스 집합은 모든 새 Microsoft Purview 인스턴스에서 기본적으로 꺼져 있습니다. 고급 리소스 집합은 관리 허브의 계정 정보 에서 사용하도록 설정할 수 있습니다. 루트 컬렉션에서 데이터 큐레이터 역할에 추가된 사용자만 고급 리소스 집합 설정을 관리할 수 있습니다.
고급 리소스 집합을 사용하도록 설정한 후 새로 수집된 모든 자산에서 추가 보강이 발생합니다. 이러한 보강은 수집 후 자산에서 사용할 수 있는 데 최대 12시간 이 걸릴 수 있습니다. Microsoft Purview 팀은 기능을 전환한 후 새 데이터 레이크 데이터를 검사하기 전에 1시간을 기다리는 것이 좋습니다.
중요
고급 리소스 집합을 사용하도록 설정하면 자산 및 분류 인사이트의 새로 고침 속도에 영향을 줍니다. 고급 리소스 집합이 설정되면 자산 및 분류 인사이트는 하루에 두 번만 업데이트됩니다.
또한 고급 리소스 집합을 사용하도록 설정하면 스키마 업데이트를 확인하는 데 최대 12시간 이 걸릴 수 있습니다.
기본 제공 리소스 집합 패턴
Microsoft Purview는 다음 리소스 집합 패턴을 지원합니다. 이러한 패턴은 디렉터리 또는 파일 이름의 일부로 표시할 수 있습니다.
Regex 기반 패턴
패턴 이름 | 표시 이름 | 설명 |
---|---|---|
Guid | {GUID} | RFC 4122에 정의된 전역적으로 고유한 식별자 |
숫자 | {N} | 하나 이상의 숫자 |
날짜/시간 형식 | {Year}{Month}{Day}{N} | 다양한 날짜/시간 형식을 지원하지만 모두 {Year}[구분 기호]{Month}[구분 기호]{Day} 또는 {N}s 시리즈로 표시됩니다. |
4ByteHex | {HEX} | 4자리 HEX 번호입니다. |
지역화 | {LOC} | BCP 47에 정의된 언어 태그와 - 및 _ 이름이 모두 지원됩니다(예: en_ca 및 en-ca). |
복잡한 패턴
패턴 이름 | 표시 이름 | 설명 |
---|---|---|
SparkPath | {SparkPartitions} | Spark 파티션 파일 식별자 |
Date(yyyy/mm/dd)InPath | {Year}/{Month}/{Day} | 여러 폴더에 걸쳐 있는 연도/월/일 패턴 |
리소스 집합이 통합 카탈로그 표시되는 방법
Microsoft Purview가 자산 그룹을 리소스 집합에 일치하면 카탈로그에서 표시 이름으로 사용할 가장 유용한 정보를 추출하려고 시도합니다. 적용된 기본 명명 규칙의 몇 가지 예는 다음과 같습니다.
예 1
정규화된 이름: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
표시 이름: "spark 출력의 이름"
예 2
정규화된 이름: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
표시 이름: "내 분할된 데이터"
예 3
정규화된 이름: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
표시 이름: "data"
패턴 규칙을 사용하여 리소스 집합 그룹화 사용자 지정
스토리지 계정을 검사할 때 Microsoft Purview는 정의된 패턴 집합을 사용하여 자산 그룹이 리소스 집합인지 확인합니다. 경우에 따라 Microsoft Purview의 리소스 집합 그룹화가 데이터 자산을 정확하게 반영하지 못할 수 있습니다. 이러한 문제에는 다음이 포함될 수 있습니다.
- 자산을 리소스 집합으로 잘못 표시합니다.
- 자산을 잘못된 리소스 집합에 넣습니다.
- 자산을 리소스 집합이 아닌 것으로 잘못 표시합니다.
Microsoft Purview가 리소스 집합으로 그룹화된 자산과 카탈로그 내에 표시되는 방식을 검색하는 방법을 사용자 지정하거나 재정의하려면 관리 센터에서 패턴 규칙을 정의할 수 있습니다. 단계별 지침 및 구문은 리소스 집합 패턴 규칙을 참조하세요.
리소스 집합의 알려진 제한 사항
- 기본적으로 리소스 집합 자산은 고급 리소스 집합 이 사용하도록 설정된 경우에만 검사에서 삭제됩니다. 이 기능이 꺼져 있는 경우 리소스 집합 자산은 수동으로 또는 API를 통해서만 삭제할 수 있습니다.
다음 단계
Microsoft Purview를 시작하려면 빠른 시작: Microsoft Purview 계정 만들기를 참조하세요.