Общие сведения о хранилищах данных в Fabric

Завершено

Lakehouse Fabric — это коллекция файлов, папок, таблиц и ярлыков, которые действуют как база данных в озере данных. Он используется подсистемой Spark и подсистемой SQL для обработки больших данных и имеет функции для транзакций ACID при использовании таблиц с форматированными разностными таблицами с открытым кодом.

Интерфейс хранилища данных Fabric позволяет переходить с озера озера Lakehouse (который поддерживает проектирование данных и Apache Spark) на интерфейсы SQL, предоставляемые традиционным хранилищем данных. Lakehouse позволяет считывать таблицы и использовать конечную точку аналитики SQL, а хранилище данных позволяет управлять данными.

В интерфейсе хранилища данных вы моделироваете данные с помощью таблиц и представлений, запустите T-SQL для запроса данных в хранилище данных и Lakehouse, используйте T-SQL для выполнения операций DML с данными внутри хранилища данных и обслуживания уровней отчетов, таких как Power BI.

Итак, вы изучили основные принципы для разработки схемы реляционного хранилища данных. Теперь давайте рассмотрим, как создать хранилище данных.

Описание хранилища данных в Fabric

В интерфейсе хранилища данных в Fabric можно создать реляционный слой на основе физических данных в Lakehouse и предоставить его средствам анализа и отчетности. Хранилище данных можно создать непосредственно в Fabric из центра создания или в рабочей области. После создания пустого хранилища можно добавить в него объекты.

Снимок экрана: пользовательский интерфейс Fabric со стрелкой, указывающей на центр создания.

После создания хранилища можно создавать таблицы с помощью T-SQL непосредственно в интерфейсе Fabric.

Прием данных в хранилище данных

Существует несколько способов приема данных в хранилище данных Fabric, включая конвейеры, потоки данных, межбазовые запросы и команду COPY INTO. После приема данные становятся доступными для анализа несколькими бизнес-группами, которые могут использовать такие функции, как межбазовый запрос и общий доступ для доступа к нему.

Создание таблиц

Чтобы создать таблицу в хранилище данных, можно использовать SQL Server Management Studio (SSMS) или другой клиент SQL для подключения к хранилищу данных и запуска инструкции CREATE TABLE. Вы также можете создавать таблицы непосредственно в пользовательском интерфейсе Fabric.

Данные из внешнего расположения можно скопировать в таблицу в хранилище данных с помощью синтаксиса COPY INTO . Например:

COPY INTO dbo.Region 
FROM 'https://mystorageaccountxxx.blob.core.windows.net/private/Region.csv' WITH ( 
            FILE_TYPE = 'CSV'
            ,CREDENTIAL = ( 
                IDENTITY = 'Shared Access Signature'
                , SECRET = 'xxx'
                )
            ,FIRSTROW = 2
            )
GO

Этот SQL-запрос загружает данные из CSV-файла, хранящегося в Хранилище BLOB-объектов Azure, в таблицу с именем "Регион" в хранилище данных Fabric.

Снимок экрана: редактор SQL-запросов с открытым запросом.

Клонирование таблиц

Вы можете создавать клоны таблиц нулевого копирования с минимальными затратами на хранение в хранилище данных. Эти клоны по сути являются репликами таблиц, созданных путем копирования метаданных, а также ссылки на те же файлы данных в OneLake. Это означает, что базовые данные, хранящиеся в виде файлов parquet, не дублируются, что помогает сэкономить затраты на хранение.

Клоны таблиц особенно полезны в нескольких сценариях.

  • Разработка и тестирование. Клоны позволяют разработчикам и тестировщикам создавать копии таблиц в более низких средах, упрощая разработку, отладку, тестирование и процессы проверки.
  • Восстановление данных. В случае сбоя выпуска или повреждения данных клоны таблиц могут сохранять предыдущее состояние данных, что позволяет восстановить данные.
  • Исторические отчеты: они помогают создавать исторические отчеты, которые отражают состояние данных в определенный момент времени и сохраняют данные в определенных бизнес-вех.

Вы можете создать клон таблицы с помощью CREATE TABLE AS CLONE OF команды T-SQL.

Дополнительные сведения о клонах таблиц см. в руководстве . Клонирование таблицы с помощью T-SQL в Microsoft Fabric.

Рекомендации по таблице

После создания таблиц в хранилище данных важно рассмотреть процесс загрузки данных в эти таблицы. Распространенный подход — использовать промежуточные таблицы. В Fabric можно использовать команды T-SQL для загрузки данных из файлов в промежуточные таблицы в хранилище данных.

Промежуточные таблицы — это временные таблицы, которые можно использовать для очистки данных, преобразования данных и проверки данных. Промежуточные таблицы также можно использовать для загрузки данных из нескольких источников в одну целевую таблицу.

Обычно загрузка данных выполняется как периодический пакетный процесс, в котором вставка и обновление хранилища данных координируются с регулярным интервалом (например, ежедневно, еженедельно или ежемесячно).

Как правило, следует реализовать процесс загрузки хранилища данных, выполняющий задачи в следующем порядке:

  1. Прием новых данных для загрузки в озеро данных, применение предварительной очистки или преобразований по мере необходимости.
  2. Загрузите данные из файлов в промежуточные таблицы в реляционном хранилище данных.
  3. Загрузите таблицы измерений из данных измерения в промежуточных таблицах, обновите существующие строки или вставьте новые строки и при необходимости создайте суррогатные значения ключей.
  4. Загрузите таблицы фактов из данных фактов в промежуточных таблицах, найдите соответствующие суррогатные ключи для связанных измерений.
  5. Выполните оптимизацию после загрузки, обновив индексы и статистику распределения таблиц.

Если у вас есть таблицы в lakehouse, и вы хотите иметь возможность запрашивать их в хранилище , но не вносить изменения в хранилище данных Fabric, вам не нужно копировать данные из lakehouse в хранилище данных. Данные в lakehouse можно запрашивать непосредственно из хранилища данных с помощью запросов между базами данных.

Внимание

Работа с таблицами в хранилище данных Fabric в настоящее время имеет некоторые ограничения. Дополнительные сведения см . в таблицах в хранилище данных в Microsoft Fabric .