Практическое руководство по профилированию данных в источниках данных в Каталоге данных Azure
Внимание
Azure Каталог данных была прекращена 15 мая 2024 г.
Для функций каталога данных используйте службу Microsoft Purview , которая обеспечивает унифицированное управление данными для всего пространства данных.
Введение
Каталог данных Microsoft Azure — это полностью управляемая облачная служба, выполняющая функции систем регистрации и обнаружения корпоративных источников данных. Проще говоря, каталог данных Azure помогает пользователям обнаруживать, оценивать и использовать источники данных, что, в свою очередь, повышает для организаций ценность их существующей информации. Если источник данных зарегистрирован в каталоге данных Azure, его метаданные копируются и индексируются службой, но на этом работа с ними не заканчивается.
Функция профилирования данныхкаталога данных Azure проверяет данные из поддерживаемых источников данных в каталоге и собирает статистику и информацию об этих данных. Включить профиль ресурсов данных — очень легко. При регистрации ресурса данных выберите пункт Включить профиль данных в средстве регистрации источника данных.
Что такое профилирование данных?
Профилирование данных — это проверка данных в регистрируемом источнике данных, а также сбор статистики и информации об этих данных. Во время поиска источника данных эта статистика может помочь вам определить пригодность данных для решения той или иной бизнес-задачи.
Профилирование данных поддерживают такие источники данных:
- таблицы и представления SQL Server (в том числе Базы данных SQL Azure и Azure Synapse Analytics);
- таблицы и представления Oracle;
- таблицы и представления Teradata;
- Таблицы Hive
Включение профилей данных при регистрации ресурсов данных помогает пользователям ответить на следующие вопросы об источниках данных:
- Могу ли я с помощью этого источника данных решить свою бизнес-проблему?
- Соответствуют ли данные определенным стандартам или шаблонам?
- Каковы аномалии этого источника данных?
- Каковы возможные проблемы интеграции этих данных в мое приложение?
Примечание.
Кроме того, вы можете добавить документацию в ресурс, чтобы описать, как данные можно интегрировать в приложение. Ознакомьтесь со статьей Как создать документацию по источникам данных.
Как включить профиль данных при регистрации источника данных
Включить профиль источника данных очень легко. Когда вы регистрируете источник данных, на панели Объекты для регистрации средства регистрации источника данных выберите Включить профиль данных.
Дополнительные сведения о том, как регистрировать источники данных, см. в статьях Как регистрировать источники данных и Начало работы с каталогом данных Azure.
Фильтрация по ресурсам данных, которые включают в себя профили данных
Чтобы обнаружить ресурсы данных, которые включают в себя профили данных, вы можете использовать условие поиска has:tableDataProfiles
или has:columnsDataProfiles
.
Примечание.
Если в инструменте регистрации источников данных выбрать Включить профиль данных , то будут включены данные профиля уровня таблицы и столбца. Тем не менее API каталога данных позволяет регистрировать ресурсы данных, содержащие только один набор данных профиля.
Просмотр сведений о профиле данных
Найдя подходящий источник данных с профилем, вы можете просмотреть сведения об этом профиле данных. Для этого выберите ресурс данных и щелкните Профиль данных в окне портала каталога данных.
Профиль данных в каталоге данных Azure отображает сведения о профиле столбца и таблицы, в том числе приведенную ниже информацию.
Профиль данных объекта
- Число строк
- Размер таблицы
- Время последнего обновления объекта
Профиль данных столбца
- Тип данных столбца
- Количество уникальных значений
- Количество строк со значением NULL
- Минимальное, максимальное, среднее и стандартное отклонение значений столбца
Итоги
Профилирование данных дает возможность пользоваться информацией о зарегистрированных ресурсах данных и связанной с ними статистикой. Это позволяет определить, насколько те или иные данные подходят для решения бизнес-задач. С помощью профилей данных можно не только аннотировать и документировать источники данных, но и предоставлять пользователям более точное описание своих данных.