Происхождение данных в Microsoft Purview
В этой статье представлен обзор происхождения данных в Единый каталог Microsoft Purview. В нем также описано, как системы данных могут интегрироваться с каталогом для сбора данных о происхождении данных. Microsoft Purview может собирать данные о происхождении данных в разных частях хранилища данных организации и на разных уровнях подготовки, включая:
- Необработанные данные, промежуточные с различных платформ
- Преобразованные и подготовленные данные
- Данные, используемые платформами визуализации
Варианты использования
Происхождение данных широко понимается как жизненный цикл, охватывающий источник данных и место, в котором они перемещаются с течением времени в пространстве данных. Он используется для различных типов сценариев с обратным взглядом, таких как устранение неполадок, трассировка первопричин в конвейерах данных и отладка. Происхождение данных также используется для анализа качества данных, соответствия требованиям и сценариев "что если", которые часто называют анализом влияния. Происхождение представляется визуально для отображения данных, перемещающихся из источника в место назначения, включая способ преобразования данных. Учитывая сложность большинства корпоративных сред данных, эти представления трудно понять, не выполняя некоторую консолидацию или маскирование периферийных точек данных.
Взаимодействие с происхождением данных в Единый каталог
Единый каталог подключается к другим системам обработки, хранения и аналитики данных для извлечения сведений о происхождении. Сведения объединяются для представления универсального интерфейса происхождения в каталоге, зависящего от сценария.
Ваше хранилище данных может включать в себя системы, выполняя извлечение данных, преобразование (системы ETL/ELT), аналитику и системы визуализации. Каждая из систем записывает обширные статические и операционные метаданные, описывающие состояние и качество данных в пределах границ систем. Целью происхождения данных в Единый каталог является извлечение из каждой системы данных перемещения, преобразования и операционных метаданных на минимально возможном уровне.
В следующем примере показан типичный вариант использования данных, перемещаемых между несколькими системами, где Единый каталог будут подключаться к каждой из систем для происхождения данных.
- Фабрика данных копирует данные из локальной или необработанной зоны в целевую зону в облаке.
- Системы обработки данных, такие как Synapse и Databricks, будут обрабатывать и преобразовывать данные из целевой зоны в курированную зону с помощью записных книжек.
- Дальнейшая обработка данных в аналитические модели для оптимальной производительности запросов и агрегирования.
- Системы визуализации данных будут использовать наборы данных и обрабатывать их метамодулями для создания панели мониторинга бизнес-аналитики, экспериментов машинного обучения и т. д.
Степень детализации происхождения
В следующем разделе рассматриваются сведения о степени детализации данных о происхождении, собираемых Microsoft Purview. Такая степень детализации может отличаться в зависимости от систем данных, поддерживаемых в Microsoft Purview.
Происхождение происхождения на уровне сущности: источники > целевых объектов процесса >
- Происхождение представляется в виде графа, обычно он содержит исходные и целевые сущности в системах хранения данных, которые связаны процессом, вызываемым вычислительной системой.
- Системы данных подключаются к Единый каталог для создания уникального объекта, ссылающегося на физический объект базовой системы данных, например хранимую процедуру SQL, записные книжки и т. д.
- Происхождение с высокой точностью с другими метаданными, такими как владение, записывается для отображения происхождения в понятном для человека формате для исходных & целевых сущностей. например: происхождение на уровне таблицы Hive, а не на уровне секций или файлов.
Происхождение данных на уровне столбца или атрибута
Определите атрибуты исходной сущности, которая используется для создания или получения атрибутов в целевой сущности. Имя исходного атрибута можно сохранить или переименовать в целевом объекте. Такие системы, как Фабрика данных Azure (ADF), могут выполнять одну копию из локальной среды в облако. Пример: Table1/ColumnA -> Table2/ColumnA
.
Состояние выполнения процесса
Для поддержки основных причин анализа и сценариев качества данных мы фиксируем состояние выполнения заданий в системах обработки данных. Это требование не имеет ничего общего с заменой возможностей мониторинга других систем обработки данных, ни цель не заключается в их замене.
Сводка
Происхождение происхождения — это важная функция Единый каталог для поддержки сценариев качества, доверия и аудита. Цель Единый каталог — создать надежную платформу, в которой все системы данных в вашей среде могут естественным образом подключаться и сообщать о происхождении данных. Когда метаданные будут доступны, Единый каталог сможет объединить метаданные, предоставляемые системами данных, для использования вариантов использования управления данными.