Общие сведения о концепциях озерной базы данных

Завершено

В традиционной реляционной базе данных схема базы данных состоит из таблиц, представлений и других объектов. Таблицы в реляционной базе данных определяют сущности, к которым относятся сохраняемые данные. Например, база данных розничной торговли может содержать таблицы для продуктов, клиентов и заказов. Каждая сущность состоит из набора атрибутов, которые определяются как столбцы в таблице, и каждый столбец имеет имя и тип данных. Данные для таблиц хранятся в базе данных в тесном сопоставлении с определением таблиц, которое применяет определенные типы данных, допустимость значений NULL, уникальность ключей и целостность ссылок между связанными ключами. Все запросы и операции с данными должны выполняться через систему базы данных.

В озере данных не существует фиксированной схемы. Данные здесь хранятся в файлах, которые могут быть структурированными, частично структурированными или неструктурированными. Приложения и аналитики данных могут обращаться к файлам в озере данных напрямую с помощью любых привычных инструментов, без характерных для системы реляционной базы данных ограничений.

Озерная база данных предоставляет дополнительный слой реляционных метаданных, который существует поверх файлов в озере данных. Вы можете создать озерную базу данных с определениями для таблиц, в которых указаны имена и типы данных столбцов, а также связи между первичными и внешними ключевыми столбцами. Эти таблицы ссылаются на файлы в озере данных, что позволяет применять к данным в этих файлах семантику реляционных баз данных и запросы SQL. Но при этом хранение файлов данных не имеет строгой связи со схемой базы данных, что повышает гибкость по сравнению с обычным для реляционных баз данных уровнем.

Схема реляционной схемы связанных таблиц, наложенная на файлы в хранилище файлов.

Схема озерной базы данных

Вы можете создать озерную базу данных в Azure Synapse Analytics и определить таблицы для сущностей, к которым относятся сохраненные данные. Вы можете применить проверенные принципы моделирования данных для создания связей между таблицами и использовать соответствующие соглашения об именовании для таблиц, столбцов и других объектов базы данных.

Azure Synapse Analytics предоставляет графический интерфейс для разработки базы данных, в котором можно моделировать сложные схемы базы данных на основе тех же современных рекомендаций по проектированию баз данных, что и в обычной базе данных.

Хранилище для озерной базы данных

Данные для таблиц в озерной базе данных сохраняются в виде файлов Parquet или CSV в озере данных. Управление файлами выполняется независимо от таблиц базы данных, что упрощает прием и обработку данных, поскольку вы можете использовать широкий спектр средств и технологий обработки данных.

Вычисления для озерной базы данных

Запросы к данным и управление данными в определенных вами таблиц можно выполнять в бессерверном пуле SQL в Azure Synapse (через SQL-запросы) или в пуле Apache Spark Azure Synapse (через API SQL Spark).