다음을 통해 공유


자산 정규화

Microsoft Purview 데이터 맵 자산을 수집할 때 동일한 데이터 자산을 업데이트하는 다른 원본은 유사하지만 약간 다른 정규화된 이름을 보낼 수 있습니다. 이러한 정규화된 이름은 동일한 자산을 나타내지만, 추가 문자와 같은 약간의 차이로 인해 표면에서 이러한 자산이 다르게 표시되고 Microsoft Purview에서 중복 항목이 발생할 수 있습니다. 중복 항목을 저장하고 통합 카탈로그 사용할 때 혼동을 일으키지 않도록 Microsoft Purview는 수집 중에 정규화를 자동으로 적용하여 동일한 엔터티 형식의 모든 정규화된 이름이 동일한 형식인지 확인합니다.

예를 들어 정규화된 이름으로 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetAzure Blob에서 검색합니다. 이 Blob은 자산에 계보 정보를 추가하는 Azure Data Factory 파이프라인에서도 사용합니다. ADF(Azure Data Factory) 파이프라인은 파일을 https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet로 읽도록 구성할 수 있습니다. 정규화된 이름은 다르지만 이 ADF 파이프라인은 동일한 데이터를 사용합니다. 정규화를 통해 Azure Blob Storage 및 Azure Data Factory 모든 메타데이터가 단일 자산https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet에 표시됩니다.

중요

아래에 나열된 규칙은 Microsoft Purview가 현재 인식하는 유일한 복제 유형입니다. 실수로 자산 중복이 발생하는 경우 자산 정규화된 이름을 대문자 차이 또는 추가 문자에 대해 검사 비교합니다. 정규화된 이름이 일치할 수 있도록 ADF 파이프라인과 같은 수집 지점을 업데이트합니다.

정규화 규칙

Microsoft Purview가 자동으로 적용하는 정규화 규칙입니다.

중괄호 인코딩

적용 대상: 모든 자산

전에: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

후: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

구역 공간 자르기

적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL 풀, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

전에: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

후: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

호스트 이름 공간 제거

적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

전에: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

후: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

대괄호 제거

적용 대상: Azure SQL Database, Azure SQL Managed Instance, Azure SQL 풀

전에: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

후: mssql://foo.database.windows.net/bar/dbo/foo%20bar

참고

두 대괄호 사이의 공백이 인코딩됩니다.

소문자 구성표

적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

전에: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

후: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

소문자 호스트 이름

적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

전에: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

후: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

소문자 파일 확장자

적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

전에: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

후: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

중복 슬래시 제거

적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL 풀, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

전에: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

후: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

ADL 스키마로 변환

적용 대상: Azure Data Lake Storage Gen1

전에: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

후: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

후행 슬래시 제거

Azure Blob, ADLS Gen1 및 ADLS Gen2에 대한 상위 수준 자산에서 후행 슬래시를 제거합니다.

적용 대상: Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

자산 유형: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

전에: https://myaccount.core.windows.net/

후: https://myaccount.core.windows.net

문제 해결

데이터가 정규화되지 않고 실수로 자산 중복이 발생하는 경우 자산 정규화된 이름을 검사 대문자 차이 또는 추가 문자를 비교합니다.

위에 나열된 규칙은 Microsoft Purview가 현재 인식하는 유일한 중복 형식입니다. 데이터가 이러한 규칙을 벗어나는 경우 정규화된 이름이 일치할 수 있도록 수집 지점(예: ADF 파이프라인)을 업데이트합니다.

자산이 규칙을 충족하지만 정규화되지 않는 경우 지원에 문의하세요.

다음 단계

Azure Blob Storage 계정에서 Microsoft Purview 데이터 맵으로 스캔합니다.