Compartilhar via


Normalização de ativos

Ao ingerir recursos na Mapa de Dados do Microsoft Purview, diferentes origens que atualizam o mesmo recurso de dados podem enviar nomes qualificados semelhantes, mas ligeiramente diferentes. Embora estes nomes qualificados representem o mesmo recurso, pequenas diferenças, como um caráter extra, podem fazer com que estes recursos na superfície apareçam diferentes e causem entradas duplicadas no Microsoft Purview. Para evitar armazenar entradas duplicadas e causar confusão ao consumir o Catálogo unificado, o Microsoft Purview aplica automaticamente a normalização durante a ingestão para garantir que todos os nomes completamente qualificados do mesmo tipo de entidade estão no mesmo formato.

Por exemplo, pode analisar num Blob do Azure com o nome https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetqualificado . Este blob também é consumido por um pipeline Azure Data Factory que, em seguida, adicionará informações de linhagem ao recurso. O pipeline do ADF (Azure Data Factory) pode estar configurado para ler o ficheiro como https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet. Embora o nome qualificado seja diferente, este pipeline do ADF está a consumir a mesma parte dos dados. A normalização garante que todos os metadados de Armazenamento de Blobs do Azure e Azure Data Factory estão visíveis num único elemento, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Importante

As regras listadas abaixo são os únicos tipos de potencial duplicação que o Microsoft Purview reconhece atualmente. Se estiver a ter duplicações acidentais de recursos, compare os nomes completamente qualificados dos recursos com marcar para diferenças de capitalização ou carateres adicionais. Atualize quaisquer pontos de ingestão, por exemplo os pipelines do ADF, para que os nomes qualificados correspondam.

Regras de normalização

Estas são as regras de normalização que o Microsoft Purview aplica automaticamente.

Codificar parênteses curais

Aplica-se a: Todos os Recursos

Antes: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

Depois: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Cortar espaços de secção

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory SQL do Azure Database, Instância Gerenciada de SQL do Azure, conjunto de SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

Depois: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Remover espaços de nome de anfitrião

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Base de Dados SQL do Azure Instância Gerenciada de SQL do Azure, SQL do Azure conjunto, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Remover parênteses retos

Aplica-se a: SQL do Azure Base de Dados, Instância Gerenciada de SQL do Azure, conjunto de SQL do Azure

Antes: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

Depois: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Observação

Os espaços entre dois parênteses retos serão codificados

Esquema em minúsculas

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Base de Dados SQL do Azure Instância Gerenciada de SQL do Azure, SQL do Azure conjunto, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

Antes: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Nome do anfitrião em minúsculas

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Base de Dados SQL do Azure Instância Gerenciada de SQL do Azure, SQL do Azure conjunto, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

Antes: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Extensão de ficheiro em minúsculas

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

Antes: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

Depois: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Remover barra duplicada

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory SQL do Azure Database, Instância Gerenciada de SQL do Azure, conjunto de SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Converter em esquema do ADL

Aplica-se a: Azure Data Lake Storage Gen1

Antes: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Depois: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Remover Barra à Direita

Remova a barra à direita dos recursos de nível superior para Blob do Azure, ADLS Gen1 e ADLS Gen2.

Aplica-se a: Blob do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

Tipos de ativos: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

Antes: https://myaccount.core.windows.net/

Depois: https://myaccount.core.windows.net

Solução de problemas

Se os seus dados não estiverem a ser normalizados e estiver a ter duplicações acidentais de recursos, compare os nomes completamente qualificados dos recursos com marcar para diferenças de capitalização ou carateres adicionais.

As regras listadas acima são os únicos tipos de duplicação que o Microsoft Purview reconhece atualmente. Se os seus dados estiverem fora destas regras, atualize os pontos de ingestão, por exemplo, os pipelines do ADF, para que os nomes qualificados correspondam.

Se os seus recursos cumprirem as regras, mas não estiverem a ser normalizados, contacte o suporte.

Próximas etapas

Analise numa conta Armazenamento de Blobs do Azure no mapa de dados do Microsoft Purview.