Руководство по настройке dbt для хранилища данных Fabric
Область применения:✅ хранилище в Microsoft Fabric
В этом руководстве описано, как настроить dbt и развернуть первый проект в хранилище Fabric.
Введение
Платформа с открытым кодом dbt (средство сборки данных) упрощает преобразование данных и инженерию аналитики. Он фокусируется на преобразованиях на основе SQL в уровне аналитики, рассматривая SQL как код. dbt поддерживает управление версиями, модульизацию, тестирование и документацию.
Адаптер dbt для Microsoft Fabric можно использовать для создания проектов dbt, которые затем можно развернуть в хранилище данных Fabric.
Вы также можете изменить целевую платформу для проекта dbt, просто изменив адаптер, например; Проект, созданный для выделенного пула SQL Azure Synapse, можно обновить через несколько секунд до хранилища данных Fabric.
Предварительные требования для адаптера dbt для Microsoft Fabric
Следуйте этому списку, чтобы установить и настроить необходимые компоненты dbt:
Драйвер Microsoft ODBC для SQL Server.
Последняя версия адаптера dbt-fabric из репозитория PyPI (индекс пакета Python) с помощью
pip install dbt-fabric
.pip install dbt-fabric
Примечание.
Изменив
pip install dbt-synapse
pip install dbt-fabric
и используя приведенные ниже инструкции, можно установить адаптер dbt для выделенного пула SQL Synapse.Убедитесь, что dbt-fabric и его зависимости устанавливаются с помощью
pip list
команды:pip list
Длинный список пакетов и текущих версий должен быть возвращен из этой команды.
Если у вас еще нет, создайте хранилище. Вы можете использовать пробную емкость для этого упражнения: зарегистрируйте бесплатную пробную версию Microsoft Fabric, создайте рабочую область и создайте хранилище.
Начало работы с адаптером dbt-fabric
В этом руководстве используется Visual Studio Code, но вы можете использовать предпочитаемое средство.
Клонируйте демонстрационный проект dbt jaffle_shop на компьютер.
- Вы можете клонировать репозиторий с помощью встроенного управления версиями Visual Studio Code.
- Или, например, можно использовать
git clone
команду:
git clone https://github.com/dbt-labs/jaffle_shop.git
Откройте папку
jaffle_shop
проекта в Visual Studio Code.Вы можете пропустить регистрацию, если вы уже создали хранилище.
Создайте файл
profiles.yml
. Добавьте следующую конфигурациюprofiles.yml
в . Этот файл настраивает подключение к хранилищу в Microsoft Fabric с помощью адаптера dbt-fabric.config: partial_parse: true jaffle_shop: target: fabric-dev outputs: fabric-dev: authentication: CLI database: <put the database name here> driver: ODBC Driver 18 for SQL Server host: <enter your SQL analytics endpoint here> schema: dbo threads: 4 type: fabric
Примечание.
При желании перейдите
type
fabric
synapse
к адаптеру базы данных в Azure Synapse Analytics. Любую существующую платформу данных проекта dbt можно обновить, изменив адаптер базы данных. Дополнительные сведения см . в списке баз данных поддерживаемых платформ данных.Проверка подлинности в Azure в терминале Visual Studio Code.
- Запустите
az login
в терминале Visual Studio Code, если вы используете проверку подлинности Azure CLI. - Для проверки подлинности субъекта-службы или другого идентификатора Microsoft Entra (ранее Azure Active Directory) в Microsoft Fabric см. инструкции по настройке dbt (средство сборки данных) и конфигурациям ресурсов dbt. Дополнительные сведения см. в статье "Проверка подлинности Microsoft Entra" в качестве альтернативы проверке подлинности SQL в Microsoft Fabric.
- Запустите
Теперь вы готовы проверить подключение. Чтобы проверить подключение к хранилищу, запустите
dbt debug
в терминале Visual Studio Code.dbt debug
Все проверки передаются, что означает, что вы можете подключить хранилище с помощью адаптера dbt-fabric из
jaffle_shop
проекта dbt.Теперь пришло время проверить, работает ли адаптер. Сначала выполните вставку
dbt seed
примеров данных в хранилище.Выполните проверку
dbt run
данных для некоторых тестов.dbt run
Запустите
dbt test
, чтобы запустить модели, определенные в демонстрационном проекте dbt.dbt test
Теперь вы развернули проект dbt в хранилище данных Fabric.
Перемещение между различными складами
Это простое перемещение проекта dbt между различными хранилищами. Проект dbt в любом поддерживаемом хранилище можно быстро перенести с помощью этого трехэтапного процесса:
Установите новый адаптер. Дополнительные сведения и полные инструкции по установке см. в разделе "Адаптеры dbt".
type
Обновите свойство вprofiles.yml
файле.Выполните сборку проекта.
dbt в Фабрике данных Fabric
При интеграции с Apache Airflow популярная система управления рабочими процессами dbt становится мощным инструментом для оркестрации преобразований данных. Возможности планирования и управления задачами Airflow позволяют командам данных автоматизировать запуски субд. Он обеспечивает регулярное обновление данных и поддерживает согласованный поток высококачественных данных для анализа и отчетности. Этот объединенный подход, используя опыт преобразования dbt с управлением рабочими процессами Airflow, обеспечивает эффективные и надежные конвейеры данных, что в конечном итоге приводит к более быстрым и подробным решениям, управляемым данными.
Apache Airflow — это платформа с открытым исходным кодом , используемая для программного создания, планирования и мониторинга сложных рабочих процессов данных. Он позволяет определить набор задач, которые называются операторами, которые можно объединить в ациклические графы (DAG) для представления конвейеров данных.
Дополнительные сведения об эксплуатации dbt с помощью хранилища см. в статье "Преобразование данных с помощью dbt" с фабрикой данных в Microsoft Fabric.
Рекомендации
Важно учитывать при использовании адаптера dbt-fabric:
Просмотрите текущие ограничения в хранилище данных Microsoft Fabric.
Fabric поддерживает проверку подлинности Microsoft Entra ID (ранее Azure Active Directory) для субъектов-пользователей, удостоверений пользователей и субъектов-служб. Рекомендуемый режим проверки подлинности для интерактивной работы с хранилищем — CLI (интерфейсы командной строки) и использование субъектов-служб для автоматизации.
Просмотрите команды T-SQL (Transact-SQL), которые не поддерживаются в хранилище данных Fabric.
Некоторые команды T-SQL поддерживаются адаптером dbt-fabric с помощью (
Create Table as Select
CTAS)DROP
иCREATE
команд, таких какALTER TABLE ADD/ALTER/DROP COLUMN
,MERGE
,TRUNCATE
.sp_rename
Просмотрите неподдерживаемые типы данных, чтобы узнать о поддерживаемых и неподдерживаемых типах данных.
Вы можете регистрить проблемы с адаптером dbt-fabric на сайте GitHub, перейдя на страницу "Проблемы" · microsoft/dbt-fabric · GitHub.