Поделиться через


База данных озера

Служба озера Database в Azure Synapse Analytics позволяет клиентам объединять и увязывать между собой структуру баз данных, метаданные о хранящейся информации и описание того, как и где эти данные должны храниться. База данных Lake решает проблему современных озер данных, где трудно понять, как структурированы данные.

Общие сведения о базе данных озера

Конструктор баз данных

Новый конструктор баз данных в Synapse Studio предоставляет возможность создать модель данных для базы данных озера и добавить в нее дополнительные сведения. Каждую сущность и атрибут можно описать, чтобы предоставить дополнительные сведения о модели, которая содержит не только сущности, но и связи. В частности, неспособность смоделировать связи создавала сложности для взаимодействия в озере данных. Теперь эти сложности устранены благодаря интегрированному конструктору, поддерживающему возможности, которые ранее были доступны в базах данных, но не в озере. Кроме того, возможность добавлять в модель описания и демонстрационные значения позволяет людям, которые будут взаимодействовать с ней, лучше понять данные благодаря контекстной информации.

Примечание.

Максимальный размер метаданных в базе данных озера составляет 10 ГБ. Попытка опубликовать или обновить модель, превышающую размер 10 ГБ, завершится ошибкой. Чтобы устранить эту проблему, уменьшите размер модели, удалив таблицы и столбцы. Рассмотрите возможность разделения больших моделей на несколько баз данных озера, чтобы избежать этого ограничения.

Хранилище данных

База данных озера использует озеро данных в учетной записи службы хранилища Azure для хранения своего содержимого. Данные можно хранить в формате Parquet, Delta или CSV, а для оптимизации хранилища можно использовать различные параметры. Каждая база данных озера использует связанную службу, которая позволяет определить расположение корневой папки данных. Для каждой сущности в этой папке базы данных в озере данных по умолчанию создаются отдельные папки. По умолчанию все таблицы в базе данных озера используют один формат, но форматы и расположение данных при необходимости можно изменить для каждой отдельной сущности.

Примечание.

При публикации базы данных озера не создаются никакие базовые структуры или схемы, необходимые для запроса данных в Spark или SQL. После публикации загрузите данные в базу данных озера с помощью конвейеров, чтобы начать создавать запросы.

В настоящее время поддержка разностного формата для баз данных озера не поддерживается в Synapse Studio.

Синхронизация объектов базы данных озера между хранилищем и Synapse является однонаправленной. Не забудьте выполнить любое создание или изменение схемы объектов базы данных lake с помощью конструктора баз данных в Synapse Studio. Если вместо этого вы вносите такие изменения из Spark или непосредственно в хранилище, определения баз данных озера будут не синхронизированы. В этом случае в конструкторе баз данных могут отображаться старые определения базы данных озера. Для того чтобы вернуть базы данных в синхронизацию, необходимо реплицировать и опубликовать такие изменения в конструкторе баз данных озера.

Вычислительный ресурс базы данных

База данных озера доступна в бессерверном пуле SQL Synapse SQL и в Apache Spark, предоставляя пользователям возможность отделить хранилище от вычислений. Метаданные, связанные с базой данных озера, упрощают различные вычислительные подсистемы не только для предоставления интегрированного интерфейса, но и использования дополнительных сведений (например, связей), которые изначально не поддерживаются в озере данных.

Продолжайте изучение возможностей конструктора баз данных, используя приведенные ниже ссылки.