Поделиться через


Что такое хранилище данных в Azure Databricks?

Хранение данных относится к сбору и хранению данных из нескольких источников, что позволяет быстро получать доступ к бизнес-аналитике и отчетности. В этой статье содержатся основные понятия для создания хранилища данных в озере данных.

Хранение данных в озерном доме

Архитектура lakehouse и Databricks SQL позволяют создавать облачные хранилища данных в озера данных. Используя знакомые структуры данных, отношения и средства управления, вы можете моделировать высокопроизводительное, экономичное хранилище данных, которое работает непосредственно в озере данных. Дополнительные сведения см. в разделе "Что такое озера данных"?

Архитектура Lakehouse с верхним слоем, включающим хранение данных, проектирование данных, потоковую передачу данных и обработку и анализ данных и машинное обучение

Как и в случае с традиционным хранилищем данных, вы моделиируете данные в соответствии с бизнес-требованиями, а затем обслуживаете их конечным пользователям для аналитики и отчетов. В отличие от традиционного хранилища данных, можно избежать разведения данных бизнес-аналитики или создания избыточных копий, которые быстро становятся устаревшими.

Создание хранилища данных в lakehouse позволяет перенести все данные в одну систему и воспользоваться преимуществами таких функций, как каталог Unity и Delta Lake.

Каталог Unity добавляет единую модель управления, чтобы обеспечить безопасность и аудит доступа к данным, а также предоставить сведения о происхождении данных в переходящих таблицах. Delta Lake добавляет транзакции ACID и эволюцию схемы, наряду с другими мощными средствами для обеспечения надежности, масштабируемости и высокого качества данных.

Что такое Databricks SQL?

Примечание.

Databricks SQL Serverless недоступна в Azure Для Китая. Databricks SQL недоступна в Azure для государственных организаций регионах.

Databricks SQL — это коллекция служб, которые приносят возможности хранения данных и производительность в существующие озера данных. Databricks SQL поддерживает открытые форматы и стандартный SQL ANSI. Редактор SQL на платформе и средства мониторинга позволяют участникам команды сотрудничать с другими пользователями Databricks непосредственно в рабочей области. Databricks SQL также интегрируется с различными инструментами, чтобы аналитики могли создавать запросы и панели мониторинга в своих любимых средах без настройки новой платформы.

Databricks SQL предоставляет общие вычислительные ресурсы, выполняемые по отношению к таблицам в Лейкхаусе. Databricks SQL поддерживается хранилищами SQL, ранее называемыми конечными точками SQL, предлагая масштабируемые вычислительные ресурсы SQL, отложенные от хранилища.

Дополнительные сведения о параметрах и параметрах хранилища SQL см. в статье "Подключение к хранилищу SQL".

Databricks SQL интегрируется с каталогом Unity, чтобы можно было обнаруживать, проверять и управлять ресурсами данных из одного места. Дополнительные сведения см. в статье Что такое каталог Unity?

Моделирование данных в Azure Databricks

Lakehouse поддерживает различные стили моделирования. На следующем рисунке показано, как данные курируются и моделироваются по мере перемещения по разным слоям озера.

Схема, показывающая различные модели данных на каждом уровне артектуры медальона lakehouse.

Архитектура медальона

Архитектура медальона — это шаблон проектирования данных, описывающий ряд добавочных слоев данных, которые обеспечивают базовую структуру в lakehouse. Бронзовые, серебряные и золотые слои свидетельствуют о повышении качества данных на каждом уровне с золотом, представляющим наивысшее качество. Дополнительные сведения см. в разделе "Что такое архитектура medallion lakehouse?".

В озерном доме каждый слой может содержать одну или несколько таблиц. Хранилище данных моделиируется на серебряном слое и передает специализированные киоски данных на золотом слое.

Бронзовый слой

Данные могут входить в озеро в любом формате и с помощью любого сочетания пакетных или паровых транзакций. Бронзовый слой предоставляет целевое пространство для всех необработанных данных в исходном формате. Эти данные преобразуются в таблицы Delta.

Серебряный слой

Серебряный слой объединяет данные из разных источников. В рамках бизнеса, в котором основное внимание уделяется приложениям для обработки и машинного обучения и обработки и анализа данных, вы начинаете курировать значимые ресурсы данных. Этот процесс часто отмечается акцентом на скорости и гибкости.

Серебряный слой также позволяет тщательно интегрировать данные из разных источников для создания хранилища данных в соответствии с существующими бизнес-процессами. Часто эти данные соответствуют модели третьего нормального типа (3NF) или Data Vault. Указание ограничений первичного и внешнего ключа позволяет конечным пользователям понимать связи таблиц при использовании каталога Unity. Хранилище данных должно служить единственным источником истины для ваших киосков данных.

Хранилище данных само по себе использует схему записи и является атомарным. Он оптимизирован для изменения, поэтому вы можете быстро изменить хранилище данных в соответствии с текущими потребностями при изменении или развитии бизнес-процессов.

Золотой слой

Золотой слой — это слой презентации, который может содержать один или несколько мартов данных. Часто витрины данных представляют собой многомерные модели в виде набора связанных таблиц, которые отражают определенную бизнес-перспективу.

Золотой слой также содержит песочницы отдела и обработки и анализа данных, чтобы обеспечить самостоятельную аналитику и обработку и обработку данных на предприятии. Предоставление этих песочниц и собственных отдельных вычислительных кластеров запрещает группам бизнеса создавать копии данных за пределами lakehouse.

Следующий шаг

Дополнительные сведения о принципах и рекомендациях по реализации и эксплуатации lakehouse с помощью Databricks см. в статье "Общие сведения о хорошо спроектированном озере данных".