База данных озера

Статья
12/19/2024

Служба озера Database в Azure Synapse Analytics позволяет клиентам объединять и увязывать между собой структуру баз данных, метаданные о хранящейся информации и описание того, как и где эти данные должны храниться. База данных Lake решает проблему современных озер данных, где трудно понять, как структурированы данные.

Общие сведения о базе данных озера

Конструктор баз данных

Новый конструктор баз данных в Synapse Studio предоставляет возможность создать модель данных для базы данных озера и добавить в нее дополнительные сведения. Каждую сущность и атрибут можно описать, чтобы предоставить дополнительные сведения о модели, которая содержит не только сущности, но и связи. В частности, неспособность смоделировать связи создавала сложности для взаимодействия в озере данных. Теперь эти сложности устранены благодаря интегрированному конструктору, поддерживающему возможности, которые ранее были доступны в базах данных, но не в озере. Кроме того, возможность добавлять в модель описания и демонстрационные значения позволяет людям, которые будут взаимодействовать с ней, лучше понять данные благодаря контекстной информации.

Примечание.

Максимальный размер метаданных в базе данных озера составляет 10 ГБ. Попытка опубликовать или обновить модель, превышающую размер 10 ГБ, завершится ошибкой. Чтобы устранить эту проблему, уменьшите размер модели, удалив таблицы и столбцы. Рассмотрите возможность разделения больших моделей на несколько баз данных озера, чтобы избежать этого ограничения.

Хранилище данных

База данных озера использует озеро данных в учетной записи службы хранилища Azure для хранения своего содержимого. Данные можно хранить в формате Parquet, Delta или CSV, а для оптимизации хранилища можно использовать различные параметры. Каждая база данных озера использует связанную службу, которая позволяет определить расположение корневой папки данных. Для каждой сущности в этой папке базы данных в озере данных по умолчанию создаются отдельные папки. По умолчанию все таблицы в базе данных озера используют один формат, но форматы и расположение данных при необходимости можно изменить для каждой отдельной сущности.

Примечание.

При публикации базы данных озера не создаются никакие базовые структуры или схемы, необходимые для запроса данных в Spark или SQL. После публикации загрузите данные в базу данных озера с помощью конвейеров, чтобы начать создавать запросы.

В настоящее время поддержка разностного формата для баз данных озера не поддерживается в Synapse Studio.

Синхронизация объектов базы данных озера между хранилищем и Synapse является однонаправленной. Не забудьте выполнить любое создание или изменение схемы объектов базы данных lake с помощью конструктора баз данных в Synapse Studio. Если вместо этого вы вносите такие изменения из Spark или непосредственно в хранилище, определения баз данных озера будут не синхронизированы. В этом случае в конструкторе баз данных могут отображаться старые определения базы данных озера. Для того чтобы вернуть базы данных в синхронизацию, необходимо реплицировать и опубликовать такие изменения в конструкторе баз данных озера.

Вычислительный ресурс базы данных

База данных озера доступна в бессерверном пуле SQL Synapse SQL и в Apache Spark, предоставляя пользователям возможность отделить хранилище от вычислений. Метаданные, связанные с базой данных озера, упрощают различные вычислительные подсистемы не только для предоставления интегрированного интерфейса, но и использования дополнительных сведений (например, связей), которые изначально не поддерживаются в озере данных.

Продолжайте изучение возможностей конструктора баз данных, используя приведенные ниже ссылки.

Поделиться через

База данных озера

Конструктор баз данных

Хранилище данных

Вычислительный ресурс базы данных

Обратная связь

Дополнительные ресурсы

Поделиться через

База данных озера

Конструктор баз данных

Хранилище данных

Вычислительный ресурс базы данных

Связанный контент

Обратная связь

Дополнительные ресурсы