Раздел 2. Настройка и регистрация данных
Примечание.
Каталог данных Microsoft Purview меняется на Единый каталог Microsoft Purview. Все функции останутся неизменными. Вы увидите изменение имени, когда новый интерфейс управления данными Microsoft Purview станет общедоступным в вашем регионе. Проверьте имя в регионе.
Если у вас нет источников данных, доступных для сканирования, вы можете выполнить следующие действия, чтобы полностью развернуть пример Azure Data Lake Stroage (ADLS 2-го поколения).
Совет
Если у вас уже есть источник данных в том же клиенте, что и учетная запись Microsoft Purview, перейдите к следующей части этого раздела, чтобы проверить ресурсы.
В недвижимости вы найдете множество различных систем, используемых для различных приложений данных. Существуют такие среды отчетности, как Fabric и Snowflake, в которых команды используют копии данных для создания аналитических решений и управления своими отчетами и панелями мониторинга. Существуют операционные системы данных, которые используются командами приложений или клиентами для выполнения бизнес-процессов, которые собирают или добавляют данные на основе решений, принятых в ходе этого процесса.
Чтобы создать более реалистичное хранилище данных, рекомендуется отобразить в каталоге множество источников данных, которые могут охватывать широкий спектр различных данных, используемых любой компанией. Типы данных, необходимые для работы с вариантом использования, могут сильно отличаться от бизнес-пользователей, которым нужны отчеты и панели мониторинга, аналитикам нужны соответствующие измерения и факты для создания отчетов, специалистам по обработке и анализу данных нужны необработанные исходные данные, поступающие непосредственно из системы, которая собирает все эти и другие данные, что позволяет различным пользователям увидеть важность поиска. понимание и доступ к данным в одном месте.
Для некоторых других учебников по добавлению данных в ваше имущество вы можете следовать этим руководствам:
- Руководство по Fabric Lakehouse — предоставляет основу для среды создания отчетов
- база данных Azure SQL (пример) — предоставляет хорошо структурированный пример рабочего хранилища данных.
Предварительные условия
- Подписка в Azure: создайте бесплатную учетную запись Azure сегодня
- Microsoft Entra ID для клиента: Управление Microsoft Entra ID
- Учетная запись Microsoft Purview
- Администратор доступ к учетной записи Microsoft Purview (это значение по умолчанию, если вы создали учетную запись Microsoft Purview. Разрешения в новой предварительной версии портала Microsoft Purview | Microsoft Learn)
- Все ресурсы; Microsoft Purview, источник данных и Microsoft Entra ID должны находиться в одном облачном клиенте.
Действия по настройке хранилища данных
Создание и заполнение учетной записи хранения
- Следуйте инструкциям в этом руководстве по созданию учетной записи хранения: Создание учетной записи хранения для Azure Data Lake Storage 2-го поколения
- Создайте контейнеры для нового озера данных:
- Перейдите на страницу Обзор учетной записи хранения.
- Перейдите на вкладку Контейнеры в разделе Хранилище данных.
- Нажмите кнопку + Контейнер
- Назовите имя "bronze" и нажмите кнопку Создать .
- Повторите эти действия, чтобы создать "золотой" контейнер.
- Скачайте примеры данных CSV из data.gov: Вакцинация от COVID-19 и тенденции случаев по возрастным группам, США
- Отправьте CSV-файл в контейнер с именем bronze в созданной учетной записи хранения.
- Выберите контейнер с именем bronze и нажмите кнопку Отправить .
- Найдите расположение, в котором вы сохранили CSV-файл, и выберите файл Covid-19_Vaccination_Case _Trends .
- Выберите Добавить.
Создание Фабрика данных Azure
На этом шаге показано, как данные перемещаются между слоями озера данных медальона, и убедитесь, что данные используются в стандартизированном формате, который потребители ожидают использовать. Это предварительный шаг для запуска качества данных.
Следуйте этому руководству, чтобы создать Фабрика данных Azure: Создание Фабрика данных Azure
Скопируйте данные из CSV-файла в контейнере "bronze" в "золотой" контейнер в виде таблицы разностного формата с помощью Фабрика данных Azure руководства: Преобразование данных с помощью потока данных сопоставления
Откройте интерфейс Фабрика данных Azure (ADF) из портал Azure, нажав кнопку Запустить студию на вкладке Обзор созданного ресурса ADF.
Перейдите на вкладку Автор в студии ADF.
Нажмите кнопку + и выберите Поток данных в раскрывающемся меню.
Присвойте потоку данных имя CSVtoDeltaC19VaxTrends.
Выберите Добавить источник в пустом поле.
Задайте для параметров источника значение:
- Имя выходного потока: "C19csv"
- Описание: оставьте пустым
- Тип источника: Встроенный
- Тип встроенного набора данных: текст с разделителями
- Связанная служба: выберите озеро данных, в котором хранится CSV-файл.
Задайте для параметров источника значение:
- Режим файла: файл
- Путь к файлу: /bronze/ Covid-19_Vaccination_Case _Trends
- Разрешить отсутствие файлов: не устанавливайте флажок
- Отслеживание измененных данных: не устанавливайте флажок
- Тип сжатия: Нет
- Кодировка: по умолчанию (UTF-8)
- Разделитель столбцов: запятая (,)
- Разделитель строк: default(\r, \n или\r\n)
- Символ кавычек: двойная кавычка (")
- Escape-символ: обратная косая черта ()
- Первая строка в качестве заголовка: CHECKED
- Оставьте остальные значения по умолчанию
Выберите маленький + Рядом с созданным источником и выберите Приемник.
Создайте приемник, в котором будут храниться данные формата и расположения, чтобы переместить данные из csv-файла в "bronze" в разностную таблицу с золотом.
- Задайте значения приемника (оставьте все параметры по умолчанию, если не указано).
- Тип приемника: встроенный
- Тип встроенного набора данных: Delta
- Связанная служба: то же озеро данных, которое используется в источнике, так как мы будем храниться в другом контейнере.
Задайте значения параметров (оставьте все параметры по умолчанию, если не указано)
- Путь к папке: gold/Covid19 Вакцины и случаи заболевания
Необходимо ввести значение, так как это имя является тем, как мы хотим, чтобы данные хранились и не существуют для выбора.
Выберите Проверить, чтобы проверить поток данных и предоставить инструкции по устранению ошибок.
Выберите Опубликовать все.
Нажмите кнопку + и выберите конвейер в раскрывающемся меню.
Присвойте конвейеру имя "CSV-to Delta C19 Vax Trends"
Выберите поток данных, созданный на предыдущих шагах CSV-файла, в Delta (C19VaxTrends) и перетащите его на открытой вкладке конвейера.
Выберите Проверить.
Выберите Опубликовать.
Выберите Отладка (использовать среду выполнения действия), чтобы запустить конвейер.
Совет
Если вы столкнулись с ошибками для пробелов или недопустимыми символами для разностного формата, откройте скачанный CSV-файл и внесите исправления. Затем выполните повторную загрузку и перезапись CSV в зоне bronze. Затем повторно запустите конвейер.
Перейдите к контейнеру gold в озере данных, и теперь вы увидите новую таблицу Delta, созданную во время конвейера.
Сканирование ресурсов
Если вы не сканировали ресурсы данных в Схема данных Microsoft Purview, вы можете выполнить следующие действия, чтобы заполнить карту данных.
При проверке источников в вашем пространстве данных автоматически собираются метаданные ресурсов данных (таблицы, файлы, папки, отчеты и т. д.) в этих источниках. Регистрируя источник данных и создавая проверку, вы устанавливаете техническое право собственности на источники и ресурсы, отображаемые в каталоге, и гарантируете, что у вас есть контроль над тем, кто может получить доступ к метаданным в Microsoft Purview. Регистрируя и сохраняя источники и ресурсы на уровне домена, они будут храниться на самом высоком уровне иерархии доступа. Как правило, лучше всего создать некоторые коллекции, в которых вы будете сканировать метаданные ресурса и установить правильную иерархию доступа для данных.
-
Предоставьте доступ для чтения для управляемого удостоверения Microsoft Purview (MSI) к озеру данных или другому хранилищу данных.
Совет
MSI — это имя учетной записи экземпляра Microsoft Purview.
Если вы решили использовать Microsoft Fabric или SQL, вы можете использовать следующие руководства для предоставления доступа:
Регистрация озера данных и сканирование ресурсов
В Схема данных Microsoft Purview на вкладке Домены выберите назначение ролей для домена (это будет имя учетной записи Microsoft Purview):
- Добавьте себя в качестве администратора источника данных и куратора данных в домен.
- Щелкните значок пользователя рядом с ролью Администратор источника данных.
- Выполните поиск по имени в Microsoft Entra ID (может потребоваться ввести полное имя точно так же, как в Microsoft Entra ID).
- Нажмите OK.
- Повторите эти действия для куратора данных.
- Добавьте себя в качестве администратора источника данных и куратора данных в домен.
Зарегистрируйте озеро данных:
- Перейдите на вкладку Источники данных .
- Нажмите Зарегистрировать.
- Выберите тип хранилища Azure Data Lake Storage 2-го поколения.
Укажите сведения для подключения:
- Подписка (необязательно)
- Имя источника данных (это будет имя источника ADLS 2-го поколения)
- Коллекция, в которой должны храниться метаданные ресурса (необязательно)
- Выберите Зарегистрировать
После завершения регистрации источника данных можно настроить проверку. Регистрация означает, что Microsoft Purview подключен к источнику данных и поместил его в правильную коллекцию для владения. Затем сканирование считывает метаданные из источника и заполняет ресурсы на карте данных.
Выберите источник, зарегистрированный на вкладке "Источники данных"
Выберите новое сканирование и укажите сведения:
- Использование среды выполнения интеграции по умолчанию для этой проверки
- Учетные данные должны быть MSI Microsoft Purview (система)
- Уровень сканирования — автоматическое обнаружение
- Выберите коллекцию или используйте домен (коллекция должна быть той же или дочерней коллекцией, где был зарегистрирован источник данных).
- Нажмите кнопку Продолжить.
Совет
На этом этапе Microsoft Purview проверит подключение для проверки возможности проверки. Если вы не предоставили читателю MSI Microsoft Purview доступ к источнику данных, он завершится ошибкой. Если вы не являетесь владельцем источника данных или имеете доступ пользователя участник проверка завершится ошибкой, так как ожидается, что у вас есть авторизация для создания подключения.
Теперь выберите только контейнер gold, в котором мы разместили разностную таблицу в разделе данных о сборке учебника. Это помешает сканировать другие ресурсы данных, которые находятся в хранилище данных.
- Если рядом с gold есть только один синий проверка, вы можете оставить чеки рядом со всем, так как он будет сканировать полный источник и по-прежнему создавать ресурсы, которые мы будем использовать, и многое другое.
- Нажмите кнопку Продолжить.
На экране Выбор набора правил проверки следует использовать набор правил проверки по умолчанию.
Нажмите кнопку Продолжить.
При установке триггера сканирования вы зададите частоту сканирования, чтобы по мере добавления ресурсов данных в золотой контейнер озера он продолжал заполнять карту данных. Выберите Один раз.
Нажмите Продолжить.
Выберите Сохранить и выполнить. При этом будет создано сканирование, которое считывает метаданные только из золотого контейнера озера данных и заполняет таблицу, которую мы будем использовать в Каталог данных Microsoft Purview в следующих разделах. Если выбрать только сохранить, проверка не будет выполняться, и ресурсы не отображаются. После выполнения проверки вы увидите созданное сканирование с состоянием Последнего выполнения в очереди. Когда проверка завершит чтение, ресурсы будут готовы к работе со следующим разделом. Это может занять несколько минут или часов в зависимости от количества ресурсов в источнике.