Поделиться через


Загрузка данных в Fabric с помощью действия копирования в средстве Azure Data Factory

Соединитель Microsoft Fabric Lakehouse в Фабрике данных Azure (ADF) и Azure Synapse Analytics позволяют выполнять операции чтения и записи в Microsoft Fabric Lakehouse (как для таблиц, так и для файлов). Этот соединитель позволяет использовать ваши существующие конвейеры ADF и Synapse, а также потоки данных "Mapping Data Flows" для взаимодействия с Fabric Lakehouses. Эта статья поможет настроить Microsoft Fabric для разрешения проверки подлинности учетной записи службы, а затем демонстрирует коннектор Lakehouse для чтения и записи в Fabric Lakehouse.

Дополнительные сведения о Microsoft Fabric Lakehouse см. в статье Что такое lakehouse?

Соединитель Azure Data Factory Lakehouse

Новый коннектор связанной службы Lakehouse и два новых набора данных теперь доступны для клиентов, которые хотят начать читать из Microsoft Fabric Lakehouse и записывать туда. Для полного руководства по соединителю Lakehouse обратитесь к Копирование и преобразование данных в Microsoft Fabric Lakehouse Files (предварительная версия).

Аутентификация

Связанная служба Фабрики данных Azure

Соединитель Microsoft Fabric Lakehouse требует для аутентификации регистрации служебного принципала (SPN)/приложения. Чтобы приступить к работе, необходимо создать новый SPN (имя субъекта-службы) или использовать существующий. Microsoft Fabric предоставляет SPN-доступ либо к определённым группам безопасности, либо ко всей организации. Если определенная группа безопасности является вариантом, используемым организацией, имя субъекта-службы, используемое в соединителе Lakehouse, должно принадлежать группе безопасности, добавляемой в список разрешений.

Заметка

Разрешения API Power BI (делегированные) не требуются

Доступ к API Power BI

На портале администрирования Power BI администратор клиента Power BI должен включить разрешить использование служебными принципалами API Power BI. Группа безопасности должна быть указана в разделе Разрешить субъектам-службам использовать api Power BI или включить для всей организации.

Полное руководство см. в статье Встраивание содержимого Power BI в интегрированное аналитическое приложение с использованием объект-субъекта и секрета приложения.

Заметка

При назначении группы безопасности рабочей области может возникнуть задержка для предоставления субъекту-службе доступа к рабочей области из-за кэширования разрешений в Azure. Если требуется немедленный доступ, можно использовать PowerShell для принудительного обновления разрешений пользователя. Для этого откройте PowerShell от имени администратора, а затем выполните следующие команды:

Install-Module -Name MicrosoftPowerBIMgmt
Connect-PowerBIServiceAccount -Tenant '<TENANT ID>' -ServicePrincipal -Credential (Get-Credential)
Get-PowerBIWorkspace
Invoke-PowerBIRestMethod -URL 'https://api.powerbi.com/v1.0/myorg/RefreshUserPermissions' -Method Post -Body ''
Get-PowerBIWorkspace

Доступ к рабочей области

После добавления группы безопасности группа безопасности или служебный объект также должны быть добавлены в каждую рабочую область в качестве участника, вкладчика или администратора. Дополнительные сведения см. в статье Предоставление пользователям доступа к рабочим областям.

Демонстрация: настройка проверки подлинности

Принципал службы регистрации приложений

Создайте или используйте существующую учетную запись службы для регистрации приложений (SPN). Выполните действия в , чтобы зарегистрировать приложение с помощью Microsoft Entra ID, и создайте служебный принципал.

Заметка

Не нужно устанавливать URI перенаправления.

снимок экрана: сведения о новом субъекте-службе.

Группа безопасности

Создайте новую группу безопасности Microsoft Entra или используйте существующую, а затем добавьте в неё SPN. Следуя шагам в разделе "создание базовой группы и добавление участников", создайте группу безопасности Microsoft Entra.

снимок экрана, показывающий, где добавлять участников в группу безопасности.

Портал администрирования Power BI

На портале администрирования Power BIперейдите к параметрам разработчика и выберите Разрешить субъектам-службам использоватьAPI Power BI, а затем включите его. Затем добавьте группу безопасности из предыдущего шага. Для получения дополнительной информации о параметрах клиента в портале администрирования Power BI см. параметры клиента.

Скриншот, показывающий портал администратора Power BI с параметром

Заметка

Убедитесь, что параметр Пользователи могут получать доступ к данным, хранящимся в OneLake, с использованием внешних для Fabric приложений включен. Дополнительные сведения см. в статье Разрешить приложениям, работающим за пределами Fabric, получать доступ к данным через OneLake.

Рабочая область

Добавьте SPN или группу служб в рабочую область с доступом участника , участника или администратора .

Фабрика данных Azure: связанная служба

Из фабрики данных Azureсоздайте новую связанную службу Microsoft Fabric Lakehouse.

Заметка

Чтобы найти идентификаторы рабочей области и Lakehouse, перейдите к Fabric Lakehouse и определите его по URL-адресу. Например: https://.../groups/<Workspace ID>>/lakehouses/<Lakehouse ID>

Фабрика данных Azure: набор данных

Создайте набор данных, ссылающийся на связанную службу Microsoft Fabric Lakehouse.

Заметка

Выберите None для опции импорта схемы , если таблица еще не существует и вы вручную задаете новое имя для этой таблицы.

снимок экрана: диалоговое окно

скриншот, показывающий диалоговое окно

Демо: Запись в таблицу Fabric Lakehouse через конвейер ADF

Источник

Создайте новый проект конвейера и добавьте операцию копирования в рабочую область конвейера. На вкладке Источник действия копирования выберите исходный набор данных, который вы хотите переместить в таблицу типа Lakehouse. В этом примере мы ссылаемся на файл .csv из учетной записи Azure Data Lake Storage (ADLS) 2-го поколения.

снимок экрана, показывающий конфигурацию вкладки параметров источника операции копирования с .csv, выбранной для исходного набора данных.

Тонуть

Перейдите на вкладку приемника действия копирования и выберите созданный ранее набор данных Fabric Lakehouse.

снимок экрана, показывающий выбранный ранее набор данных Fabric Lakehouse.

Запуск конвейера

Запустите конвейер, чтобы переместить данные .csv в таблицу Fabric Lakehouse.

снимок экрана, показывающий результат выполнения конвейера.

Пример: чтение из таблицы Fabric Lakehouse с помощью конвейера Azure Data Factory

В приведенном выше разделе показано, как использовать ADF для записи в таблицу Fabric Lakehouse. Теперь давайте прочитаем таблицу Fabric Lakehouse и запишем в файл Parquet в хранилище данных Azure Data Lake Storage (ADLS) второго поколения с аналогичным конвейером обработки данных.

Источник

Создайте новый конвейер данных и добавьте операцию копирования на холст конвейера. На вкладке Источник операции копирования выберите созданный ранее набор данных Fabric Lakehouse.

Снимок экрана с выбором и предпросмотром ранее созданного источника данных Lakehouse.

Тонуть

Перейдите на вкладку приемника действия копирования и выберите целевой набор данных. В этом примере назначение — Azure Data Lake Storage (2-го поколения) в качестве файла Parquet.

снимок экрана: выбор приемника ADLS 2-го поколения.

Запуск конвейера

Активируйте конвейер, чтобы переместить данные из таблицы Fabric Lakehouse в файл в формате Parquet в ADLS Gen2.

Снимок экрана, показывающий результат выполнения конвейера по импорту данных в ADLS Gen2 из Fabric Lakehouse.

Проверка файла Parquet в Azure Data Lake Storage второго поколения

Данные из таблицы Fabric Lakehouse теперь доступны в ADLS Gen2 как файл Parquet.

Снимок экрана, показывающий файл Parquet, созданный конвейером.

Сводка

В этом разделе мы изучили требования соединителя Lakehouse с помощью проверки подлинности субъекта-службы в Microsoft Fabric Lakehouse, а затем изучили пример чтения и записи в Lakehouse из конвейера Фабрики данных Azure. Этот соединитель и возможности также доступны в потоках данных сопоставления в Azure Data Factory, Azure Synapse Analytics и Azure Synapse Analytics Mapping Data Flows.

Документация по Azure Data Factory