Поделиться через


Нормализация активов

При приеме ресурсов в карту данных Microsoft Purview разные источники, обновляющие один и тот же ресурс данных, могут отправлять похожие, но немного разные полные имена. Хотя эти полные имена представляют один и тот же ресурс, незначительные различия, такие как дополнительный символ, могут привести к тому, что эти ресурсы на поверхности будут отображаться по-разному и дублировать записи в Microsoft Purview. Чтобы избежать сохранения повторяющихся записей и возникновения путаницы при использовании каталога данных, Microsoft Purview применяет нормализацию во время приема, чтобы убедиться, что все полные имена одного типа сущности имеют одинаковый формат.

Например, вы сканируете большой двоичный объект Azure с полным именем https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet. Этот большой двоичный объект также используется конвейером Фабрика данных Azure, который затем добавляет сведения о происхождении данных в ресурс. Конвейер ADF может быть настроен для чтения файла как https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet. Хотя полное имя отличается, этот конвейер ADF использует один и тот же фрагмент данных. Нормализация гарантирует, что все метаданные из Хранилище BLOB-объектов Azure и Фабрика данных Azure будут видны в одном ресурсе , https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Важно!

Приведенные ниже правила являются единственными видами потенциального dupilcation, распознаваемого в настоящее время Microsoft Purview. Если возникает случайное дублирование ресурсов, сравните полные имена ресурсов с проверка для различий каплитализации или дополнительных символов. Обновите все точки приема, например конвейеры ADF, чтобы полные имена совпадали.

Правила нормализации

Ниже приведены правила нормализации, применяемые Microsoft Purview.

Кодирование фигурных скобок

Область применения: Все ресурсы

Перед: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

После: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Обрезка пространств разделов

Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Фабрика данных Azure, база данных Azure SQL, Управляемый экземпляр SQL Azure, пул Azure SQL, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Azure Data Share, Amazon S3

Перед: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

После: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Удаление пространств имен узлов

Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, база данных Azure SQL, Управляемый экземпляр SQL Azure, Azure SQL pool, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Azure Data Share, Amazon S3

Перед: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

После: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Удаление квадратных скобок

Область применения: база данных Azure SQL, Управляемый экземпляр SQL Azure, пул Azure SQL

Перед: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

После: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Примечание.

Пробелы между двумя квадратными скобками будут закодированы

Схема в нижнем регистре

Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, база данных Azure SQL, Управляемый экземпляр SQL Azure, Azure SQL пул, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Amazon S3

Перед: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

После: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Имя узла в нижнем регистре

Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, база данных Azure SQL, Управляемый экземпляр SQL Azure, Azure SQL пул, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Amazon S3

Перед: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

После: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Расширение файла в нижнем регистре

Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Amazon S3

Перед: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

После: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Удаление повторяющихся косой черты

Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Фабрика данных Azure, база данных Azure SQL, Управляемый экземпляр SQL Azure, пул Azure SQL, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Azure Data Share, Amazon S3

Перед: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

После: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Преобразование в схему ADL

Область применения: Azure Data Lake Storage 1-го поколения

Перед: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

После: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Удаление косой черты

Удаление косой черты из ресурсов более высокого уровня для BLOB-объектов Azure, ADLS 1-го поколения и ADLS 2-го поколения

Область применения: Большой двоичный объект Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения

Типы активов: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

Перед: https://myaccount.core.windows.net/

После: https://myaccount.core.windows.net

Дальнейшие действия

Выполните сканирование в учетной записи Хранилище BLOB-объектов Azure на карте данных Microsoft Purview.