Ressourcennormalisierung
Beim Erfassen von Ressourcen in der Microsoft Purview Data Map können unterschiedliche Quellen, die dieselbe Datenressource aktualisieren, ähnliche, aber leicht unterschiedliche qualifizierte Namen senden. Während diese qualifizierten Namen dasselbe Objekt darstellen, können geringfügige Unterschiede wie ein zusätzliches Zeichen dazu führen, dass diese Objekte auf der Oberfläche anders aussehen und doppelte Einträge in Microsoft Purview verursachen. Um das Speichern doppelter Einträge zu vermeiden und bei der Verwendung der Unified Catalog zu Verwechslungen zu führen, wendet Microsoft Purview automatisch die Normalisierung während der Erfassung an, um sicherzustellen, dass alle vollqualifizierten Namen desselben Entitätstyps das gleiche Format aufweisen.
Beispielsweise scannen Sie ein Azure-Blob mit dem qualifizierten Namen https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
. Dieses Blob wird auch von einer Azure Data Factory-Pipeline genutzt, die dem Medienobjekt dann Herkunftsinformationen hinzugibt. Die ADF-Pipeline (Azure Data Factory) kann so konfiguriert sein, dass die Datei als https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
gelesen wird. Obwohl sich der qualifizierte Name unterscheidet, verwendet diese ADF-Pipeline die gleichen Daten. Die Normalisierung stellt sicher, dass alle Metadaten aus Azure Blob Storage und Azure Data Factory auf einem einzelnen Medienobjekt sichtbar sind, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
.
Wichtig
Die unten aufgeführten Regeln sind die einzigen Arten potenzieller Duplikate, die Microsoft Purview derzeit erkennt. Wenn eine versehentliche Ressourcenduplizierung auftritt, vergleichen Sie die vollqualifizierten Namen der Ressourcen, um nach Groß-/Kleinschreibungsunterschieden oder zusätzlichen Zeichen zu suchen. Aktualisieren Sie alle Erfassungspunkte, z. B. Ihre ADF-Pipelines, damit die qualifizierten Namen übereinstimmen.
Normalisierungsregeln
Dies sind die Normalisierungsregeln, die Von Microsoft Purview automatisch angewendet werden.
Codieren von geschweiften Klammern
Gilt für: Alle Ressourcen
Vor: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
Nach: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
Abschnittsräume kürzen
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Vor: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
Nach: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
Entfernen von Hostnamenräumen
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Vor: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Entfernen von eckigen Klammern
Gilt für: Azure SQL-Datenbank, Azure SQL Managed Instance, Azure SQL-Pool
Vor: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
Nach: mssql://foo.database.windows.net/bar/dbo/foo%20bar
Hinweis
Leerzeichen zwischen zwei eckigen Klammern werden codiert.
Kleinbuchstabenschema
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3
Vor: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Hostname in Kleinbuchstaben
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3
Vor: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Dateierweiterung in Kleinbuchstaben
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3
Vor: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
Nach: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
Doppelte Schrägstriche entfernen
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Vor: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Konvertieren in ein ADL-Schema
Gilt für: Azure Data Lake Storage Gen1
Vor: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Nach: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Entfernen des nachgestellten Schrägstrichs
Entfernen Sie den nachgestellten Schrägstrich aus übergeordneten Ressourcen für Azure Blob, ADLS Gen1 und ADLS Gen2.
Gilt für: Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2
Objekttypen: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".
Vor: https://myaccount.core.windows.net/
Nach: https://myaccount.core.windows.net
Problembehandlung
Wenn Ihre Daten nicht normalisiert werden und es zu einer versehentlichen Duplizierung von Ressourcen kommt, vergleichen Sie die vollqualifizierten Namen der Ressourcen, um nach Groß-/Kleinschreibungsunterschieden oder zusätzlichen Zeichen zu suchen.
Die oben aufgeführten Regeln sind die einzigen Arten von Duplizierungen, die Microsoft Purview derzeit erkennt. Wenn Ihre Daten außerhalb dieser Regeln fallen, aktualisieren Sie alle Erfassungspunkte, z. B. Ihre ADF-Pipelines, damit die qualifizierten Namen übereinstimmen.
Wenn Ihre Ressourcen die Regeln erfüllen, aber nicht normalisiert werden, wenden Sie sich an den Support.
Nächste Schritte
Scannen Sie ein Azure Blob Storage-Konto in die Microsoft Purview-Datenzuordnung.