Описание архитектуры медальона

Завершено

Озера данных в Fabric основаны на формате Delta Lake, который изначально поддерживает транзакции ACID (атомарность, согласованность, изоляция, устойчивость). В рамках этой платформы архитектура медальона — это рекомендуемый шаблон проектирования данных, используемый для упорядочивания данных в лейкхаусе логически. Она направлена на улучшение качества данных по мере перемещения по разным уровням. Архитектура обычно имеет три слоя — бронзу (сырую), серебряную (проверенную) и золотую (обогащенную), каждая из которых представляет более высокие уровни качества данных. Некоторые люди также называют его архитектурой с несколькими прыжками, что означает, что данные могут перемещаться между слоями по мере необходимости.

Эта архитектура гарантирует, что данные являются надежными и согласованными, так как они проходят различные проверки и изменения. Кроме того, он гарантирует, что данные безопасно хранятся таким образом, что упрощает и быстрее анализировать данные.

Архитектура медальона дополняет другие методы организации данных, а не заменяет их. Архитектуру медальона можно рассматривать как платформу для очистки данных, а не архитектуру или модель данных. Она обеспечивает совместимость и гибкость для предприятий, чтобы использовать свои преимущества вместе с существующими моделями данных, позволяя настраивать решения данных и сохранять опыт, оставаясь адаптируемым в постоянно изменяющемся ландшафте данных.

Схема архитектуры медальона, в которой данные передаются из источника в бронзовые, серебряные и золотые слои.

Общие сведения о формате архитектуры медальона

Бронзовый слой

Бронзовый или необработанный слой архитектуры медальона является первым слоем озера. Это целевая зона для всех данных, структурированных, полуструктурированных или неструктурированных. Данные хранятся в исходном формате и не вносятся в него никаких изменений.

Серебряный слой

Серебряный или проверенный слой является вторым слоем озера. Здесь вы будете проверять и уточнять данные. Типичные действия в серебряном слое включают объединение и объединение данных и применение правил проверки данных, таких как удаление значений NULL и дедупликация. Серебряный слой можно рассматривать как центральный репозиторий в организации или команде, где данные хранятся в согласованном формате и могут быть доступны нескольким командам. На серебряном слое вы очищаете данные достаточно, чтобы все было в одном месте и готово к уточнению и моделироваться в золотом слое.

Золотой слой

Золотой или обогащенный слой является третьим слоем озера. В золотом слое данные проходят дальнейшее уточнение, чтобы соответствовать конкретным потребностям бизнеса и аналитики. Это может включать агрегирование данных в определенную степень детализации, например ежедневно или почасовую обработку или обогащение данных внешними данными. После достижения золотой стадии данные становятся готовыми для использования подчиненными командами, включая аналитику, обработку и анализ данных или MLOps.

Настройка архитектуры медальона

В зависимости от конкретного варианта использования организации может потребоваться больше слоев. Например, у вас может быть дополнительный "необработанный" слой для целевых данных в определенном формате, прежде чем он преобразуется в бронзовый слой. Или у вас может быть "платиновый" слой для данных, которые были более уточнены и обогащены для конкретного варианта использования. Независимо от имен и количества слоев, архитектура медальона является гибкой и может быть адаптирована для удовлетворения конкретных требований вашей организации.

Перемещение данных по слоям в Fabric

Перемещение данных по слоям медальона обновляет, упорядочивает и подготавливает их к последующим действиям данных. В lakehouse Fabric существует несколько способов перемещения данных между слоями, гарантируя, что вы можете выбрать метод, который работает для вашей команды.

При принятии решения о перемещении и преобразовании данных между слоями следует учитывать несколько аспектов.

  • Сколько данных вы работаете?
  • Насколько сложными являются преобразования, которые необходимо сделать?
  • Как часто необходимо перемещать данные между слоями?
  • Какие инструменты вам удобнее всего?

Понимание разницы между преобразованием данных и оркестрацией данных помогает выбрать правильные инструменты для задания в Fabric.

Преобразование данных включает изменение структуры или содержимого данных в соответствии с конкретными требованиями. Средства преобразования данных в Fabric включают потоки данных (2-го поколения) и записные книжки. Потоки данных — отличный вариант для небольших семантических моделей и простых преобразований. Записные книжки — это лучший вариант для более крупных семантических моделей и более сложных преобразований. Записные книжки также позволяют сохранять преобразованные данные в виде управляемой таблицы Delta в lakehouse, готовой для создания отчетов.

Оркестрация данных относится к координации и управлению несколькими процессами, связанными с данными, обеспечивая совместную работу для достижения желаемого результата. Основное средство оркестрации данных в Fabric — конвейеры. Конвейер — это ряд шагов, которые перемещают данные из одного места в другое, в данном случае из одного слоя архитектуры медальона в следующий. Конвейеры могут быть автоматизированы для выполнения по расписанию или активации события.