Стандарты метаданных
Управление метаданными играет важную роль в архитектуре данных. Метаданные — это данные о других данных. В нем описываются данные, предоставляющие ссылку, которая помогает находить, защищать и контролировать данные. Метаданные также связывают данные вместе. Его можно использовать для проверки целостности и качества данных, маршрутизации или репликации данных в новое расположение, преобразования данных и понимания значений данных. Метаданные также являются важными для демократизации данных с помощью порталов самообслуживания.
Существует растущая тенденция в отрасли, чтобы приблизить аналитические сведения к аналитикам и специалистам по данным с помощью порталов, использующих дополнительные метаданные. Эта тенденция называется наблюдаемостью данных. Наблюдение за данными использует такие понятия, как озеро метаданных, графы знаний или графы метаданных, чтобы описать платформы, в которых метаданные централизованны. Это хороший способ создать единое представление об использовании и источнике данных в организации при использовании распределенной сетки данных.
Хорошая стратегия управления метаданными растет органично. Он начинается с простого и небольшого, сначала определяя наиболее важные области. Хорошая стратегия управления метаданными также поддерживается службами и четкими процессами. Чтобы приступить к работе, хорошо знать о различных категориях метаданных:
- Бизнес-метаданные описывают все аспекты , используемые для управления, поиска и понимания данных. Некоторые известные примеры включают бизнес-термины и определения и информацию о владении данными, использовании и происхождении.
- Технические метаданные описывают структурные аспекты данных во время разработки. Некоторые известные примеры включают сведения о схеме, формат данных и сведения о протоколе, а также ключи шифрования и расшифровки.
- Операционные метаданные описывают аспекты обработки данных во время выполнения. Некоторые известные примеры включают сведения о процессе, время выполнения, сведения о сбое процесса и идентификаторы заданий.
- Социальные метаданные описывают перспективу пользователя данных от своих потребителей. Некоторые известные примеры включают сведения об использовании и отслеживании пользователей, данные результатов поиска, фильтры и щелчки, просмотр времени, попаданий профиля и комментариев.
В децентрализованной архитектуре данных управление метаданными — это задача организации, требующая поиска баланса между централизованно управляемыми метаданными и федеративным управляемыми метаданными. Важно понимать команды и функции облачной аналитики в Azure при планировании управления метаданными. Использование практики совместного управления данными может улучшить взаимодействие, интеграцию и автоматизацию потока данных между командами. Вы можете решить некоторые сложности управления метаданными, заразив правильный баланс между центральным управлением и владением доменами.
Когда вы решаете, какие метаданные следует централизованно или федеративно управлять доменами данных и начать реализацию, попросите себя:
- Какие бизнес-метаданные критически важны?
- Какие технические метаданные необходимы для взаимодействия?
- Какие процессы и потоки фиксируют данные?
- Где создаются и поддерживаются модели или схемы?
- Какие сведения необходимо предоставить группам централизованно, чтобы позволить отделу управления данными правильно выполнять свою работу?
Используя ответы на эти вопросы, сопоставьте жизненный цикл содержимого для каждого потока метаданных и определите все зависимости. Затем у вас есть модель метаданных, которая может подключать бизнес-домены, процессы, технологии и данные.
После того как вы знаете, какие необходимые метаданные, необходимо выбрать место для хранения и обработки. Для этого можно использовать Microsoft Purview.
Использование Microsoft Purview для управления хранилищем данных на большом уровне
Microsoft Purview — это единое решение для управления данными, которое помогает управлять локальными, многооблачными и программными данными как услуга (SaaS). Он управляет метаданными в масштабе, так как это полностью автоматизированная служба, которая интеллектуально выполняет обнаружение данных, сканирование данных, качество данных и управление доступом. Она также предоставляет целостную карту с множеством аналитических сведений об архитектуре сетки данных.
Microsoft Purview — это комплексный набор решений, которые помогут вашей организации управлять данными, защищать их и управлять ими. Решения Microsoft Purview обеспечивают интегрированное покрытие и помогают устранить фрагментацию данных в разных организациях, отсутствие видимости, которая препятствует защите и управлению данными, а также размытию традиционных ролей управления ИТ-клиентами.
Microsoft Purview объединяет решения по управлению данными и службам соответствия требованиям в единую платформу, чтобы помочь вашей организации:
- Получение сведений о данных в вашей организации
- Защита конфиденциальных данных и управление ими в течение всего их жизненного цикла, где бы они ни находились
- Простое управление данными новыми, комплексными способами
- Управление критическими рисками данных и нормативными требованиями
При реализации Microsoft Purview избегайте внедрения чрезмерных и сложных изменений слишком быстро. Технические метаданные формируют основу Microsoft Purview. Перед тем как разобраться в нем, необходимо собрать и упорядочить метаданные.
После того как у вас есть метаданные, начните с основных принципов:
- Бизнес-термины
- Списки надежных источников данных
- Списки баз данных
- Домены управления
- Сведения о схеме
- Владение данными
- Управление данными
- Безопасность
- Качество данных
Затем масштабируемый масштаб путем медленного участия владельцев домена и элементов управления данными и добавления дополнительных классификаций и меток конфиденциальности. Эти дополнения улучшают возможности поиска и обеспечивают более эффективное управление доступом к данным.
Microsoft Purview предлагает функцию под названием домены управления, которые устанавливают границы для единого управления, владения и обнаружения продуктов данных и бизнес-концепций в архитектуре, ориентированной на домен. Для получения дополнительной информации см. раздел о доменах управления в Microsoft Purview.
Создание Графа знаний с помощью Azure Cosmos DB
Решение для анализа данных должно описать, как используются данные и связи между сущностями, такими как исходные данные и продукты данных, а также между продуктами данных из одного домена и зависимыми продуктами из другого домена. Для моделирования этих отношений можно использовать базу данных графа или пользовательский пользовательский интерфейс.
Чтобы создать единое представление данных вашей организации с пользовательским интерфейсом, рассмотрите возможность использования Azure Cosmos DB. Azure Cosmos DB — это глобальная распределенная служба баз данных с несколькими моделями с конечными точками NoSQL. Она предоставляет службу базы данных графа через Azure Cosmos DB для Apache Gremlin, которая может хранить массивные графы с миллиардами вершин и ребрами.
Конечным результатом архитектуры Azure Cosmos DB является граф всей организации, предоставляющий унифицированное представление всех данных в организации с комплексным контекстом. Озеро метаданных касается не только хранения информации. Он также активно упорядочивает метаданные в виде графа, подключая его к другим службам и средствам. Этот упорядоченный граф позволяет сопоставить множество областей темы, в том числе:
- Домены
- Качество данных
- Использование данных
- Бизнес-возможности
- Функции приложения
- Сведения о технической архитектуре
- Операционные события
- Метаданные организации
- Метаданные владения приложениями
- Сведения о расположении
- Сведения об управлении жизненным циклом приложения